論文の概要: Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis
- arxiv url: http://arxiv.org/abs/2405.14868v2
- Date: Fri, 5 Jul 2024 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 22:54:33.727307
- Title: Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis
- Title(参考訳): 生成型カメラ:超単分子動的新しいビュー合成
- Authors: Basile Van Hoorick, Rundi Wu, Ege Ozguroglu, Kyle Sargent, Ruoshi Liu, Pavel Tokmakov, Achal Dave, Changxi Zheng, Carl Vondrick,
- Abstract要約: 制御可能な単分子動的ビュー合成パイプラインを提案する。
我々のモデルは入力として深度を必要としないし、明示的に3次元シーン形状をモデル化しない。
私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。
- 参考スコア(独自算出の注目度): 43.02778060969546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate reconstruction of complex dynamic scenes from just a single viewpoint continues to be a challenging task in computer vision. Current dynamic novel view synthesis methods typically require videos from many different camera viewpoints, necessitating careful recording setups, and significantly restricting their utility in the wild as well as in terms of embodied AI applications. In this paper, we propose $\textbf{GCD}$, a controllable monocular dynamic view synthesis pipeline that leverages large-scale diffusion priors to, given a video of any scene, generate a synchronous video from any other chosen perspective, conditioned on a set of relative camera pose parameters. Our model does not require depth as input, and does not explicitly model 3D scene geometry, instead performing end-to-end video-to-video translation in order to achieve its goal efficiently. Despite being trained on synthetic multi-view video data only, zero-shot real-world generalization experiments show promising results in multiple domains, including robotics, object permanence, and driving environments. We believe our framework can potentially unlock powerful applications in rich dynamic scene understanding, perception for robotics, and interactive 3D video viewing experiences for virtual reality.
- Abstract(参考訳): 単一の視点から複雑な動的シーンを正確に再構築することは、コンピュータビジョンにおいて難しい課題である。
現在のダイナミックな新しいビュー合成手法は、通常、多くの異なるカメラ視点からのビデオを必要とし、注意深い記録設定を必要とし、その実用性を大幅に制限すると同時に、具体化されたAIアプリケーションも必要である。
本稿では,任意のシーンのビデオに対して,他の選択された視点から同期映像を生成し,相対カメラのポーズパラメータのセットを条件とした,大規模拡散に先立って,制御可能なモノクロダイナミックビュー合成パイプラインである$\textbf{GCD}$を提案する。
我々のモデルは入力として深度を必要とせず、3Dシーンの幾何学を明示的にモデル化せず、その目的を効率的に達成するためにエンドツーエンドの映像翻訳を行う。
合成多視点ビデオデータのみに訓練されているにもかかわらず、ゼロショットの実世界の一般化実験は、ロボット工学、オブジェクト永続性、運転環境を含む複数の領域で有望な結果を示している。
私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。
関連論文リスト
- Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - OSN: Infinite Representations of Dynamic 3D Scenes from Monocular Videos [7.616167860385134]
モノクラーRGBビデオから基礎となる動的3Dシーンの表現を復元することは、長い間困難であった。
我々はOSNと呼ばれる新しいフレームワークを導入し、入力ビデオにマッチする高機能な3Dシーン構成を学習する。
本手法は, きめ細かい3次元シーン形状を学習する上で, 明らかな優位性を示す。
論文 参考訳(メタデータ) (2024-07-08T05:03:46Z) - Total-Recon: Deformable Scene Reconstruction for Embodied View Synthesis [76.72505510632904]
長い単眼のRGBDビデオから変形可能なシーンを再構成する最初の方法であるTotal-Reconを提案する。
本手法は背景と物体にシーンを階層的に分解し,動作を根体運動と局所的調音に分解する。
論文 参考訳(メタデータ) (2023-04-24T17:59:52Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - Playable Environments: Video Manipulation in Space and Time [98.0621309257937]
再生可能な環境 - 空間と時間におけるインタラクティブなビデオ生成と操作のための新しい表現。
提案フレームワークでは,1枚の画像を推論時に生成し,対象物を3次元に移動させ,所望のアクションを連続して生成する。
提案手法は,各フレームの環境状態を構築し,提案したアクションモジュールで操作し,ボリュームレンダリングで画像空間に復号化することができる。
論文 参考訳(メタデータ) (2022-03-03T18:51:05Z) - HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular
Video [44.58519508310171]
我々は、人間の複雑な身体の動きを観察するモノクラービデオで動作する、自由視点レンダリング手法、HumanNeRFを紹介した。
提案手法は,任意のフレームで動画をパージングし,任意のカメラ視点から被写体をレンダリングする。
論文 参考訳(メタデータ) (2022-01-11T18:51:21Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。