論文の概要: Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting
- arxiv url: http://arxiv.org/abs/2504.11092v1
- Date: Tue, 15 Apr 2025 11:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:09:47.316916
- Title: Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting
- Title(参考訳): Vivid4D: モノクラービデオからの4Dレコンストラクションをビデオインペインティングで改善
- Authors: Jiaxin Huang, Sheng Miao, BangBnag Yang, Yuewen Ma, Yiyi Liao,
- Abstract要約: そこで我々は,視線を増大させることにより4次元モノクロ映像合成を向上させる新しいアプローチであるVivid4Dを紹介した。
これは、観察されたビューを新たな視点に歪曲するビデオインペインティングタスクとして、ビュー増強を再構成する。
実験により,本手法はモノラルな4次元シーンの再現と完了を効果的に改善することが示された。
- 参考スコア(独自算出の注目度): 24.395489500826027
- License:
- Abstract: Reconstructing 4D dynamic scenes from casually captured monocular videos is valuable but highly challenging, as each timestamp is observed from a single viewpoint. We introduce Vivid4D, a novel approach that enhances 4D monocular video synthesis by augmenting observation views - synthesizing multi-view videos from a monocular input. Unlike existing methods that either solely leverage geometric priors for supervision or use generative priors while overlooking geometry, we integrate both. This reformulates view augmentation as a video inpainting task, where observed views are warped into new viewpoints based on monocular depth priors. To achieve this, we train a video inpainting model on unposed web videos with synthetically generated masks that mimic warping occlusions, ensuring spatially and temporally consistent completion of missing regions. To further mitigate inaccuracies in monocular depth priors, we introduce an iterative view augmentation strategy and a robust reconstruction loss. Experiments demonstrate that our method effectively improves monocular 4D scene reconstruction and completion.
- Abstract(参考訳): カジュアルに捉えたモノクロビデオから4Dのダイナミックなシーンを再構築することは価値があるが、タイムスタンプは1つの視点で観察されるため非常に難しい。
モノクラー入力から多視点映像を合成することで4次元モノクラー映像の合成を促進する新しいアプローチであるVivid4Dを紹介する。
幾何的先行を監督のためにのみ活用する既存の方法や、幾何を見下ろしながら生成的先行を利用する方法とは異なり、どちらも統合する。
これは、観察されたビューを、単眼の深みに基づく新しい視点にワープするビデオインパインティングタスクとして、ビュー増強を再構成する。
そこで本研究では,未対応のウェブビデオに,変形するオクルージョンを模した合成マスクを装着し,空間的かつ時間的整合性を確保した映像塗装モデルを訓練する。
単眼深度における不正確性をさらに軽減するために, 反復的視点拡張戦略と頑健な再建損失を導入する。
実験により,本手法はモノラルな4次元シーンの再現と完了を効果的に改善することが示された。
関連論文リスト
- CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models [98.03734318657848]
本研究では,モノクロ映像から4次元(ダイナミックな3D)シーンを生成するCAT4Dを提案する。
我々は、多様なデータセットの組み合わせに基づいて訓練された多視点ビデオ拡散モデルを活用して、新しいビュー合成を実現する。
新規なビュー合成と動的シーン再構成ベンチマークにおける競合性能を実証する。
論文 参考訳(メタデータ) (2024-11-27T18:57:16Z) - SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。
提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。
本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文 参考訳(メタデータ) (2024-06-29T08:33:55Z) - MoDGS: Dynamic Gaussian Splatting from Casually-captured Monocular Videos [65.31707882676292]
MoDGSは、カジュアルにキャプチャーされたモノクロビデオから、ダイナミックなシーンの新たなビューを描画する新しいパイプラインだ。
実験では、MoDGSはカジュアルにキャプチャされたモノクロビデオから、ダイナミックシーンの高品質なノベルビュー画像をレンダリングできることを示した。
論文 参考訳(メタデータ) (2024-06-01T13:20:46Z) - Portrait4D-v2: Pseudo Multi-View Data Creates Better 4D Head Synthesizer [13.969883154405995]
フィードフォワードワンショット4Dヘッドアバター合成のための新しい学習手法を提案する。
データ駆動方式で4Dヘッドシンセサイザーを学習するために擬似多視点ビデオを用いる。
論文 参考訳(メタデータ) (2024-03-20T13:09:54Z) - DRSM: efficient neural 4d decomposition for dynamic reconstruction in
stationary monocular cameras [21.07910546072467]
モノクロカメラにおける動的シーンの4次元分解問題に対処するための新しい枠組みを提案する。
本フレームワークでは,分解された静的・動的特徴面を用いて4次元シーンを表現し,高密度光線キャスティングによる動的領域の学習を強調する。
論文 参考訳(メタデータ) (2024-02-01T16:38:51Z) - Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from
a Single Image [59.18564636990079]
本研究では,1枚の画像のみから長期ダイナミック映像を合成する問題について検討する。
既存の方法は、一貫性のない永遠の視点を幻覚させるか、長いカメラの軌跡に苦しむかのいずれかである。
一つの画像から一貫した長期動画像を生成する新しい方法であるMake-It-4Dを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:53:50Z) - Decoupling Dynamic Monocular Videos for Dynamic View Synthesis [50.93409250217699]
動的モノクロビデオからの動的ビュー合成の課題を教師なしで解決する。
具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
論文 参考訳(メタデータ) (2023-04-04T11:25:44Z) - State of the Art in Dense Monocular Non-Rigid 3D Reconstruction [100.9586977875698]
モノクル2D画像から変形可能なシーン(または非剛体)の3D再構成は、コンピュータビジョンとグラフィックスの長年、活発に研究されてきた領域である。
本研究は,モノクラー映像やモノクラービューの集合から,様々な変形可能な物体や複合シーンを高密度に非剛性で再現するための最先端の手法に焦点を当てる。
論文 参考訳(メタデータ) (2022-10-27T17:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。