論文の概要: DVI: Depth Guided Video Inpainting for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2007.08854v1
- Date: Fri, 17 Jul 2020 09:29:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 13:20:50.520091
- Title: DVI: Depth Guided Video Inpainting for Autonomous Driving
- Title(参考訳): dvi:自動運転のための奥行き案内ビデオインペインティング
- Authors: Miao Liao, Feixiang Lu, Dingfu Zhou, Sibo Zhang, Wei Li, Ruigang Yang
- Abstract要約: 本稿では,ビデオからトラヒックエージェントを除去する自動インペイントアルゴリズムを提案する。
縫合された点雲から密集した3Dマップを構築することで、ビデオ内のフレームは幾何学的に相関する。
われわれは、ビデオのインペイントのために複数のビデオを融合した最初の人物だ。
- 参考スコア(独自算出の注目度): 35.94330601020169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To get clear street-view and photo-realistic simulation in autonomous
driving, we present an automatic video inpainting algorithm that can remove
traffic agents from videos and synthesize missing regions with the guidance of
depth/point cloud. By building a dense 3D map from stitched point clouds,
frames within a video are geometrically correlated via this common 3D map. In
order to fill a target inpainting area in a frame, it is straightforward to
transform pixels from other frames into the current one with correct occlusion.
Furthermore, we are able to fuse multiple videos through 3D point cloud
registration, making it possible to inpaint a target video with multiple source
videos. The motivation is to solve the long-time occlusion problem where an
occluded area has never been visible in the entire video. To our knowledge, we
are the first to fuse multiple videos for video inpainting. To verify the
effectiveness of our approach, we build a large inpainting dataset in the real
urban road environment with synchronized images and Lidar data including many
challenge scenes, e.g., long time occlusion. The experimental results show that
the proposed approach outperforms the state-of-the-art approaches for all the
criteria, especially the RMSE (Root Mean Squared Error) has been reduced by
about 13%.
- Abstract(参考訳): 自動運転におけるストリートビューとフォトリアリスティックなシミュレーションを実現するために,ビデオからトラフィックエージェントを取り除き,深度/点クラウドのガイダンスで欠落領域を合成する自動ビデオインペインティングアルゴリズムを提案する。
縫合された点雲から密集した3Dマップを構築することで、ビデオ内のフレームは、この一般的な3Dマップを介して幾何学的に相関する。
フレーム内の目標塗装領域を埋めるためには、他のフレームから画素を正しいオクルージョンで現在のフレームに変換することが容易である。
さらに、3dポイントクラウド登録によって複数の動画を融合することができ、ターゲットビデオを複数のソースビデオに塗り込むことができる。
モチベーションは、閉鎖された領域がビデオ全体から一度も見えないという長年の閉塞問題を解決することである。
私たちの知る限りでは、私たちは最初に複数のビデオに絵を描き込む。
提案手法の有効性を検証するために,実都市の道路環境において,長時間閉塞などの課題シーンを含む画像とライダーデータを同期して,大規模に塗装したデータセットを構築した。
実験の結果,提案手法はすべての基準において最先端の手法よりも優れており,特にRMSE(Root Mean Squared Error)は約13%削減されている。
関連論文リスト
- Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models [54.35214051961381]
3Dメッシュはコンピュータビジョンとグラフィックスにおいて、アニメーションの効率と映画、ゲーム、AR、VRにおける最小限のメモリ使用のために広く利用されている。
しかし、メッシュのための時間的一貫性と現実的なテクスチャを作成することは、プロのアーティストにとって労働集約的だ。
本稿では、メッシュ配列から固有の幾何学とビデオ拡散モデルを統合することで、一貫したテクスチャを生成する3Dテクスチャシーケンスを提案する。
論文 参考訳(メタデータ) (2024-10-14T17:59:59Z) - Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。
本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。
58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文 参考訳(メタデータ) (2024-06-04T17:57:37Z) - Lester: rotoscope animation through video object segmentation and
tracking [0.0]
レスターはビデオからレトロスタイルの2Dアニメーションを自動的に合成する新しい方法である。
ビデオフレームはSAM(Segment Anything Model)で処理され、結果のマスクは後のフレームを通してDeAOTで追跡される。
その結果,提案手法は時間的整合性に優れており,ポーズや外観の異なる映像を正しく処理できることがわかった。
論文 参考訳(メタデータ) (2024-02-15T11:15:54Z) - Hierarchical Masked 3D Diffusion Model for Video Outpainting [20.738731220322176]
映像出力のためのマスク付き3次元拡散モデルを提案する。
これにより、複数のビデオクリップ推論の結果を接続するために、複数のガイドフレームを使用することができます。
また, アーティファクトの蓄積問題を緩和するために, 粗大から粗大の推論パイプラインも導入する。
論文 参考訳(メタデータ) (2023-09-05T10:52:21Z) - Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from
a Single Image [59.18564636990079]
本研究では,1枚の画像のみから長期ダイナミック映像を合成する問題について検討する。
既存の方法は、一貫性のない永遠の視点を幻覚させるか、長いカメラの軌跡に苦しむかのいずれかである。
一つの画像から一貫した長期動画像を生成する新しい方法であるMake-It-4Dを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:53:50Z) - Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-06-27T06:48:15Z) - Real-time dense 3D Reconstruction from monocular video data captured by
low-cost UAVs [0.3867363075280543]
リアルタイム3d再構築は,ナビゲーションや緊急時のライブ評価など,多数のアプリケーションにメリットがある環境の高速密マッピングを可能にする。
ほとんどのリアルタイム対応のアプローチとは対照的に、我々のアプローチは明示的な深度センサーを必要としない。
建物周辺を斜め視で飛行する無人航空機(UAV)の自己動作を利用して、選択された画像のカメラ軌道と深度の両方を、十分な新規な内容で推定します。
論文 参考訳(メタデータ) (2021-04-21T13:12:17Z) - Learning Joint Spatial-Temporal Transformations for Video Inpainting [58.939131620135235]
本稿では,ビデオインペイントのためのSTTN (Spatial-Temporal Transformer Network) を提案する。
我々は,全ての入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間空間的対角損失によるSTTNの最適化を提案する。
論文 参考訳(メタデータ) (2020-07-20T16:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。