論文の概要: Reconstruct, Inpaint, Finetune: Dynamic Novel-view Synthesis from Monocular Videos
- arxiv url: http://arxiv.org/abs/2507.12646v1
- Date: Wed, 16 Jul 2025 21:40:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.279441
- Title: Reconstruct, Inpaint, Finetune: Dynamic Novel-view Synthesis from Monocular Videos
- Title(参考訳): モノクラービデオからの動的ノベルビュー合成
- Authors: Kaihua Chen, Tarasha Khurana, Deva Ramanan,
- Abstract要約: モノクロ映像からの動的シーンの新規ビュー合成について検討する。
私たちのアプローチは3つの重要な洞察に基づいています。
我々は,モノクロビデオから動的シーンを新規に合成する手法として,CagNVSがほとんどすべての先行技術より優れていることを実証的に検証した。
- 参考スコア(独自算出の注目度): 44.36499624938911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore novel-view synthesis for dynamic scenes from monocular videos. Prior approaches rely on costly test-time optimization of 4D representations or do not preserve scene geometry when trained in a feed-forward manner. Our approach is based on three key insights: (1) covisible pixels (that are visible in both the input and target views) can be rendered by first reconstructing the dynamic 3D scene and rendering the reconstruction from the novel-views and (2) hidden pixels in novel views can be "inpainted" with feed-forward 2D video diffusion models. Notably, our video inpainting diffusion model (CogNVS) can be self-supervised from 2D videos, allowing us to train it on a large corpus of in-the-wild videos. This in turn allows for (3) CogNVS to be applied zero-shot to novel test videos via test-time finetuning. We empirically verify that CogNVS outperforms almost all prior art for novel-view synthesis of dynamic scenes from monocular videos.
- Abstract(参考訳): モノクロ映像からの動的シーンの新規ビュー合成について検討する。
以前のアプローチでは、4D表現のコストのかかるテストタイム最適化や、フィードフォワードでトレーニングされた場合のシーン形状の保存に頼っていた。
提案手法は,(1) 動的3次元シーンを最初に再構成し,新規ビューからの再構成をレンダリングすることにより,可視画素(入力ビューと対象ビューの両方で見える)を描画し,(2) 新規ビューに隠された画素をフィードフォワード2次元ビデオ拡散モデルで"塗装"することができる,という3つの重要な知見に基づいている。
特に,2Dビデオから映像の塗布拡散モデル (CogNVS) を自己教師できるため,膨大な範囲のビデオコーパスでトレーニングすることが可能である。
これにより、(3) CogNVS をテストタイムの微調整によって新しいテストビデオにゼロショットで適用することができる。
我々は,モノクロビデオから動的シーンを新規に合成する手法として,CagNVSがほとんどすべての先行技術より優れていることを実証的に検証した。
関連論文リスト
- Voyaging into Unbounded Dynamic Scenes from a Single View [31.85867311855001]
そこで本稿では,動的シーン生成を動的コンテンツのシーン露光プロセスとして再構成するDynamicVoyagerを提案する。
我々は、この部分的な映像を新しい視点でレンダリングし、点雲からの光コンテキストで映像を映し出し、3D一貫した動きを生成する。
実験により、我々のモデルは、フライスルーカメラに沿って一貫した動きで、境界のないシーンを生成できることが示されている。
論文 参考訳(メタデータ) (2025-07-05T22:49:25Z) - CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models [98.03734318657848]
本研究では,モノクロ映像から4次元(ダイナミックな3D)シーンを生成するCAT4Dを提案する。
我々は、多様なデータセットの組み合わせに基づいて訓練された多視点ビデオ拡散モデルを活用して、新しいビュー合成を実現する。
新規なビュー合成と動的シーン再構成ベンチマークにおける競合性能を実証する。
論文 参考訳(メタデータ) (2024-11-27T18:57:16Z) - FreeVS: Generative View Synthesis on Free Driving Trajectory [55.49370963413221]
FreeVSは、実際の運転シーンで、無料の新しい軌跡のカメラビューを合成できる、新しい完全に生成的なアプローチである。
FreeVSは、新しいトラジェクトリの再構成プロセスや合成ビューなしで、バリデーションシーケンスに適用できる。
論文 参考訳(メタデータ) (2024-10-23T17:59:11Z) - Forecasting Future Videos from Novel Views via Disentangled 3D Scene Representation [54.60804602905519]
我々は、階層化されたシーン形状、動き予測、新しいビュー合成を一緒にモデル化することを目的として、絡み合った表現を学習する。
本手法では,2次元のシーンを3次元の点群に持ち上げることによって,シーン形状をシーンの動きから切り離す。
将来の3次元シーンの動作をモデル化するために,まず自我運動を予測し,その後に動的物体の残留運動を予測する2段階のアンタングル手法を提案する。
論文 参考訳(メタデータ) (2024-07-31T08:54:50Z) - OSN: Infinite Representations of Dynamic 3D Scenes from Monocular Videos [7.616167860385134]
モノクラーRGBビデオから基礎となる動的3Dシーンの表現を復元することは、長い間困難であった。
我々はOSNと呼ばれる新しいフレームワークを導入し、入力ビデオにマッチする高機能な3Dシーン構成を学習する。
本手法は, きめ細かい3次元シーン形状を学習する上で, 明らかな優位性を示す。
論文 参考訳(メタデータ) (2024-07-08T05:03:46Z) - iNVS: Repurposing Diffusion Inpainters for Novel View Synthesis [45.88928345042103]
単一ソース画像から一貫した新しいビューを生成する方法を提案する。
本手法は,画像からの可視画素の再利用を最大化することに焦点を当てる。
我々は、光源ビューからターゲットビューへ可視画素を転送する単眼深度推定器を用いる。
論文 参考訳(メタデータ) (2023-10-24T20:33:19Z) - SparseGNV: Generating Novel Views of Indoor Scenes with Sparse Input
Views [16.72880076920758]
SparseGNVは3次元構造と画像生成モデルを組み合わせて新しいビューを生成する学習フレームワークである。
SparseGNVは、大規模な屋内シーンデータセットでトレーニングされ、一般化可能な事前学習を行う。
フィードフォワード方式で、見えない屋内シーンの斬新なビューを効率よく生成することができる。
論文 参考訳(メタデータ) (2023-05-11T17:58:37Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z) - Vid2Actor: Free-viewpoint Animatable Person Synthesis from Video in the
Wild [22.881898195409885]
対象者の「夢中」映像が与えられた場合、映像中の人物のアニマタブルなモデルを再構築する。
出力モデルは、明示的な3dメッシュ再構成なしに、学習されたコントロールを介して、任意のカメラビューに任意のボディポーズでレンダリングすることができる。
論文 参考訳(メタデータ) (2020-12-23T18:50:42Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。