論文の概要: Forecasting Future Videos from Novel Views via Disentangled 3D Scene Representation
- arxiv url: http://arxiv.org/abs/2407.21450v2
- Date: Fri, 2 Aug 2024 05:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 12:28:46.222383
- Title: Forecasting Future Videos from Novel Views via Disentangled 3D Scene Representation
- Title(参考訳): ディスタングル3次元シーン表現による新しい視点からの今後の映像の予測
- Authors: Sudhir Yarram, Junsong Yuan,
- Abstract要約: 我々は、階層化されたシーン形状、動き予測、新しいビュー合成を一緒にモデル化することを目的として、絡み合った表現を学習する。
本手法では,2次元のシーンを3次元の点群に持ち上げることによって,シーン形状をシーンの動きから切り離す。
将来の3次元シーンの動作をモデル化するために,まず自我運動を予測し,その後に動的物体の残留運動を予測する2段階のアンタングル手法を提案する。
- 参考スコア(独自算出の注目度): 54.60804602905519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video extrapolation in space and time (VEST) enables viewers to forecast a 3D scene into the future and view it from novel viewpoints. Recent methods propose to learn an entangled representation, aiming to model layered scene geometry, motion forecasting and novel view synthesis together, while assuming simplified affine motion and homography-based warping at each scene layer, leading to inaccurate video extrapolation. Instead of entangled scene representation and rendering, our approach chooses to disentangle scene geometry from scene motion, via lifting the 2D scene to 3D point clouds, which enables high quality rendering of future videos from novel views. To model future 3D scene motion, we propose a disentangled two-stage approach that initially forecasts ego-motion and subsequently the residual motion of dynamic objects (e.g., cars, people). This approach ensures more precise motion predictions by reducing inaccuracies from entanglement of ego-motion with dynamic object motion, where better ego-motion forecasting could significantly enhance the visual outcomes. Extensive experimental analysis on two urban scene datasets demonstrate superior performance of our proposed method in comparison to strong baselines.
- Abstract(参考訳): 空間と時間の映像補間(VEST)により、視聴者は未来への3Dシーンを予測し、新しい視点から見ることができる。
近年の手法では,各シーン層における簡易なアフィンの動きとホモグラフィに基づくワープを仮定しながら,階層化されたシーン形状,動き予測,新しいビュー合成をモデル化することを目的として,絡み合った表現を学習し,不正確な映像外挿を実現する。
シーン表現やレンダリングを絡める代わりに、2Dシーンを3Dポイントの雲に持ち上げることで、シーンの動きからシーンの幾何学を解き放つことで、新しい視点からの映像の高品質なレンダリングを可能にします。
将来の3Dシーン動作をモデル化するために,まず自我運動を予測し,その後動的物体(車,人など)の残留運動を予測する2段階のアンタングル手法を提案する。
このアプローチは、動的物体運動との絡み合いから不正確な動きを減らし、より正確な動き予測を可能にする。
2つの都市景観データセットの大規模解析により,提案手法の強塩基性と比較して優れた性能を示した。
関連論文リスト
- Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - DEMOS: Dynamic Environment Motion Synthesis in 3D Scenes via Local
Spherical-BEV Perception [54.02566476357383]
本研究では,動的環境運動合成フレームワーク(DEMOS)を提案する。
次に、最終動作合成のために潜在動作を動的に更新する。
その結果,本手法は従来の手法よりも優れ,動的環境の処理性能も優れていた。
論文 参考訳(メタデータ) (2024-03-04T05:38:16Z) - Decoupling Dynamic Monocular Videos for Dynamic View Synthesis [50.93409250217699]
動的モノクロビデオからの動的ビュー合成の課題を教師なしで解決する。
具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
論文 参考訳(メタデータ) (2023-04-04T11:25:44Z) - Diffusion-based Generation, Optimization, and Planning in 3D Scenes [89.63179422011254]
本稿では,3次元シーン理解のための条件付き生成モデルであるSceneDiffuserを紹介する。
SceneDiffuserは本質的にシーン認識、物理ベース、ゴール指向である。
従来のモデルに比べて大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-01-15T03:43:45Z) - 3D-OES: Viewpoint-Invariant Object-Factorized Environment Simulators [24.181604511269096]
本稿では、3次元ニューラルシーン表現空間におけるオブジェクトとエージェントの相互作用によるシーン変化を予測できる動作条件動的モデルを提案する。
この空間では、オブジェクトは互いに干渉せず、その外観は時間と視点にわたって持続する。
本モデルでは,対話対象の個数や外観,カメラ視点の多様さにまたがる予測をよく一般化することを示す。
論文 参考訳(メタデータ) (2020-11-12T16:15:52Z) - Future Video Synthesis with Object Motion Prediction [54.31508711871764]
画像を直接合成するのではなく、複雑なシーンのダイナミクスを理解するように設計されている。
将来のシーンコンポーネントの出現は、背景の非剛性変形と移動物体のアフィン変換によって予測される。
CityscapesとKITTIデータセットの実験結果から、我々のモデルは視覚的品質と精度で最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-04-01T16:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。