論文の概要: DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos
- arxiv url: http://arxiv.org/abs/2405.02280v1
- Date: Fri, 3 May 2024 17:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 12:06:51.137963
- Title: DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos
- Title(参考訳): DreamScene4D:モノクロ映像からの動的マルチオブジェクトシーン生成
- Authors: Wen-Hsuan Chu, Lei Ke, Katerina Fragkiadaki,
- Abstract要約: モノクラーインザワイルドビデオから複数の物体の3次元動的シーンを生成できる最初のアプローチであるDreamScene4Dを提案する。
私たちのキーとなる洞察は、ビデオシーン全体と各オブジェクトの3D動作を因果分解する「分解分解」スキームを設計することである。
DAVIS、Kubric、そして自撮りビデオに関する広範な結果を示し、いくつかの制限を詳述し、今後の方向性を提供する。
- 参考スコア(独自算出の注目度): 21.93514516437402
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing VLMs can track in-the-wild 2D video objects while current generative models provide powerful visual priors for synthesizing novel views for the highly under-constrained 2D-to-3D object lifting. Building upon this exciting progress, we present DreamScene4D, the first approach that can generate three-dimensional dynamic scenes of multiple objects from monocular in-the-wild videos with large object motion across occlusions and novel viewpoints. Our key insight is to design a "decompose-then-recompose" scheme to factorize both the whole video scene and each object's 3D motion. We first decompose the video scene by using open-vocabulary mask trackers and an adapted image diffusion model to segment, track, and amodally complete the objects and background in the video. Each object track is mapped to a set of 3D Gaussians that deform and move in space and time. We also factorize the observed motion into multiple components to handle fast motion. The camera motion can be inferred by re-rendering the background to match the video frames. For the object motion, we first model the object-centric deformation of the objects by leveraging rendering losses and multi-view generative priors in an object-centric frame, then optimize object-centric to world-frame transformations by comparing the rendered outputs against the perceived pixel and optical flow. Finally, we recompose the background and objects and optimize for relative object scales using monocular depth prediction guidance. We show extensive results on the challenging DAVIS, Kubric, and self-captured videos, detail some limitations, and provide future directions. Besides 4D scene generation, our results show that DreamScene4D enables accurate 2D point motion tracking by projecting the inferred 3D trajectories to 2D, while never explicitly trained to do so.
- Abstract(参考訳): 既存のVLMは、Wild 2Dビデオオブジェクトを追跡できるが、現在の生成モデルは、制約の少ない2D-to-3Dオブジェクトリフトのために、新しいビューを合成するための強力な視覚的先行性を提供する。
このエキサイティングな進歩を生かしたDreamScene4Dは、オクルージョンと斬新な視点にまたがる大きな物体の動きを持つモノクロインザミルドビデオから、複数の物体の3次元動的シーンを生成できる最初のアプローチである。
私たちのキーとなる洞察は、ビデオシーン全体と各オブジェクトの3D動作を因果分解する「分解分解」スキームを設計することである。
まず,オープンボキャブラリマスクトラッカーと適応画像拡散モデルを用いて映像中のオブジェクトと背景を分割,追跡,アモーダルに完了させることにより,映像シーンを分解する。
各物体の軌跡は、空間と時間で変形し移動する3Dガウスの集合にマッピングされる。
また、観測された動きを複数の成分に分解して高速な動きを処理する。
カメラの動きは、背景を再レンダリングしてビデオフレームにマッチさせることで推測することができる。
物体の動きに対して、まず、物体の物体中心の変形を、物体中心のフレームにおけるレンダリング損失と多視点生成先行を生かしてモデル化し、得られた出力を知覚された画素と光の流れと比較することにより、世界軸から世界軸への変換を最適化する。
最後に、背景と対象を再構成し、単眼深度予測法を用いて相対的な物体スケールを最適化する。
DAVIS、Kubric、そして自撮りビデオに関する広範な結果を示し、いくつかの制限を詳述し、今後の方向性を提供する。
その結果,DreamScene4Dは3次元の3次元軌跡を2次元に投影することで,正確な2次元運動追跡を可能にしていることがわかった。
関連論文リスト
- Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。
我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。
提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文 参考訳(メタデータ) (2023-04-13T11:32:36Z) - Class-agnostic Reconstruction of Dynamic Objects from Videos [127.41336060616214]
動的オブジェクトをRGBDや校正ビデオから再構成するためのクラスに依存しないフレームワークであるREDOを紹介する。
我々は2つの新しいモジュールを開発し、まず、時間的視覚的手がかりを集約したピクセル整合性を持つ正準4次元暗黙関数を導入する。
第2に、時間的伝播と集約をサポートするためにオブジェクトのダイナミクスをキャプチャする4D変換モジュールを開発する。
論文 参考訳(メタデータ) (2021-12-03T18:57:47Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文 参考訳(メタデータ) (2020-07-07T18:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。