論文の概要: Inferring Compositional 4D Scenes without Ever Seeing One
- arxiv url: http://arxiv.org/abs/2512.05272v1
- Date: Thu, 04 Dec 2025 21:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.824848
- Title: Inferring Compositional 4D Scenes without Ever Seeing One
- Title(参考訳): 合成4Dシーンを一度も見ずに推測する
- Authors: Ahmet Berke Gokmen, Ajad Chhatkuli, Luc Van Gool, Danda Pani Paudel,
- Abstract要約: 本研究では、4D/3Dオブジェクトの構造と時間的構成を一貫して予測する手法を提案する。
本研究では,2次元ビデオ入力における空間的,時間的注意を慎重に設計したトレーニングによってこれを実現した。
空間的推論と時間的推論を交互に行うことで、COM4Dは完成したシーンと構成されたシーンを再構築する。
- 参考スコア(独自算出の注目度): 58.81854043690171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scenes in the real world are often composed of several static and dynamic objects. Capturing their 4-dimensional structures, composition and spatio-temporal configuration in-the-wild, though extremely interesting, is equally hard. Therefore, existing works often focus on one object at a time, while relying on some category-specific parametric shape model for dynamic objects. This can lead to inconsistent scene configurations, in addition to being limited to the modeled object categories. We propose COM4D (Compositional 4D), a method that consistently and jointly predicts the structure and spatio-temporal configuration of 4D/3D objects using only static multi-object or dynamic single object supervision. We achieve this by a carefully designed training of spatial and temporal attentions on 2D video input. The training is disentangled into learning from object compositions on the one hand, and single object dynamics throughout the video on the other, thus completely avoiding reliance on 4D compositional training data. At inference time, our proposed attention mixing mechanism combines these independently learned attentions, without requiring any 4D composition examples. By alternating between spatial and temporal reasoning, COM4D reconstructs complete and persistent 4D scenes with multiple interacting objects directly from monocular videos. Furthermore, COM4D provides state-of-the-art results in existing separate problems of 4D object and composed 3D reconstruction despite being purely data-driven.
- Abstract(参考訳): 現実世界のシーンは、しばしばいくつかの静的および動的オブジェクトで構成されている。
それらの4次元構造、組成、時空間構成は、非常に興味深いが、等しく難しい。
したがって、既存の研究はしばしば1つの対象に焦点をあてるが、動的対象に対するカテゴリ固有のパラメトリック形状モデルに依存している。
これは、モデル化されたオブジェクトカテゴリに制限されるだけでなく、一貫性のないシーン構成につながる可能性がある。
静的多目的物や動的単一オブジェクト管理のみを用いて、4D/3Dオブジェクトの構造と時空間構成を連続的かつ協調的に予測するCOM4D(Compositional 4D)を提案する。
本研究では,2次元ビデオ入力における空間的・時間的注意のトレーニングを慎重に設計し,これを実現する。
トレーニングは、一方のオブジェクト合成から学習に切り離され、他方の動画全体を通して単一のオブジェクトダイナミクスが学習されるため、4D合成トレーニングデータへの依存を完全に回避できる。
提案手法は, 4次元合成例を必要とせず, 個別に学習した注意を合成する。
空間的推論と時間的推論を交互に行うことで、COM4Dはモノクロビデオから直接、複数の対話オブジェクトで完全かつ永続的な4Dシーンを再構築する。
さらに、COM4Dは、純粋にデータ駆動であるにもかかわらず、既存の4Dオブジェクトと3D再構成の分離した問題に対して、最先端の結果を提供する。
関連論文リスト
- C4D: 4D Made from 3D through Dual Correspondences [77.04731692213663]
時間的対応を利用して既存の3次元再構成を4Dに拡張するフレームワークであるC4Dを紹介する。
C4Dは、短期光学フローと長期点追跡の2種類の対応をキャプチャする。
我々は、追加の移動情報を提供する動的認識ポイントトラッカーを訓練する。
論文 参考訳(メタデータ) (2025-10-16T17:59:06Z) - Understanding Dynamic Scenes in Ego Centric 4D Point Clouds [7.004204907286336]
EgoDynamic4Dは、非常にダイナミックなシーンに関する新しいQAベンチマークである。
エージェントの動作,人間と物体の相互作用予測,関係,軌道の理解,時間・因果推論,詳細な指標を含む12の動的QAタスクを設計する。
提案手法は,エゴ中心の動的シーン理解のためのマルチモーダル時間モデルの有効性を検証し,ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-08-10T09:08:04Z) - LLaVA-4D: Embedding SpatioTemporal Prompt into LMMs for 4D Scene Understanding [55.81291976637705]
視覚的4Dシーン理解のための時間的プロンプトを備えた汎用LMMフレームワークを提案する。
このプロンプトは、3D位置と1D時間を動的に認識された4D座標埋め込みに符号化することで生成される。
4次元シーン理解において,異なるタスクにまたがる手法の有効性を実証するために実験を行った。
論文 参考訳(メタデータ) (2025-05-18T06:18:57Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。
シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。
提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文 参考訳(メタデータ) (2024-03-25T17:55:52Z) - Class-agnostic Reconstruction of Dynamic Objects from Videos [127.41336060616214]
動的オブジェクトをRGBDや校正ビデオから再構成するためのクラスに依存しないフレームワークであるREDOを紹介する。
我々は2つの新しいモジュールを開発し、まず、時間的視覚的手がかりを集約したピクセル整合性を持つ正準4次元暗黙関数を導入する。
第2に、時間的伝播と集約をサポートするためにオブジェクトのダイナミクスをキャプチャする4D変換モジュールを開発する。
論文 参考訳(メタデータ) (2021-12-03T18:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。