論文の概要: 4D-VGGT: A General Foundation Model with SpatioTemporal Awareness for Dynamic Scene Geometry Estimation
- arxiv url: http://arxiv.org/abs/2511.18416v1
- Date: Sun, 23 Nov 2025 12:05:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.831093
- Title: 4D-VGGT: A General Foundation Model with SpatioTemporal Awareness for Dynamic Scene Geometry Estimation
- Title(参考訳): 4D-VGGT:動的シーン形状推定のための時空間認識に基づく一般基礎モデル
- Authors: Haonan Wang, Hanyu Zhou, Haoyue Liu, Luxin Yan,
- Abstract要約: 動的シーン幾何学のための普遍性分割時間表現を用いた一般化モデルを提案する。
本研究では,空間的表現のためのクロスビューグローバル・フュージョンと時間的表現のためのクロスタイムローカル・フュージョンを提案する。
複数の幾何学的データセットを統合してモデルをトレーニングし,提案手法の有効性を検証するための広範な実験を行う。
- 参考スコア(独自算出の注目度): 41.822043262920296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate a challenging task of dynamic scene geometry estimation, which requires representing both spatial and temporal features. Typically, existing methods align the two features into a unified latent space to model scene geometry. However, this unified paradigm suffers from potential mismatched representation due to the heterogeneous nature between spatial and temporal features. In this work, we propose 4D-VGGT, a general foundation model with divide-and-conquer spatiotemporal representation for dynamic scene geometry. Our model is divided into three aspects: 1) Multi-setting input. We design an adaptive visual grid that supports input sequences with arbitrary numbers of views and time steps. 2) Multi-level representation. We propose a cross-view global fusion for spatial representation and a cross-time local fusion for temporal representation. 3) Multi-task prediction. We append multiple task-specific heads to spatiotemporal representations, enabling a comprehensive visual geometry estimation for dynamic scenes. Under this unified framework, these components enhance the feature discriminability and application universality of our model for dynamic scenes. In addition, we integrate multiple geometry datasets to train our model and conduct extensive experiments to verify the effectiveness of our method across various tasks on multiple dynamic scene geometry benchmarks.
- Abstract(参考訳): 本研究では,空間的特徴と時間的特徴の両方を表現しなければならない動的シーン形状推定の課題について検討する。
通常、既存の手法は2つの特徴を統一された潜在空間に整列させ、シーン幾何学をモデル化する。
しかし、この統一パラダイムは、空間的特徴と時間的特徴の間の不均一性により、潜在的なミスマッチ表現に悩まされる。
本研究では、4D-VGGTを提案する。これは動的シーン幾何学のための分割対対時空間表現を持つ一般的な基礎モデルである。
私たちのモデルは3つの側面に分けられます。
1)マルチセット入力。
任意のビュー数と時間ステップで入力シーケンスをサポートする適応型ビジュアルグリッドを設計する。
2)マルチレベル表現。
本研究では,空間的表現のためのクロスビューグローバル・フュージョンと時間的表現のためのクロスタイムローカル・フュージョンを提案する。
3)マルチタスク予測。
複数のタスク固有の頭部を時空間表現に付加し、動的シーンの包括的視覚的幾何推定を可能にする。
この統合されたフレームワークの下では、これらのコンポーネントは動的シーンのためのモデルの特徴識別性と応用普遍性を高める。
さらに、複数の幾何学的データセットを統合してモデルをトレーニングし、複数の動的シーン幾何ベンチマーク上で、様々なタスクにわたる手法の有効性を検証するための広範な実験を行う。
関連論文リスト
- POMATO: Marrying Pointmap Matching with Temporal Motion for Dynamic 3D Reconstruction [53.19968902152528]
POMATOは時間運動と一致する点マップを結合して動的3次元再構成を実現するための統合フレームワークである。
具体的には,RGB画素を動的および静的の両方の領域から3次元ポイントマップにマッピングすることで,明示的なマッチング関係を学習する。
本稿では,複数の下流タスクにまたがる顕著な性能を示すことによって,提案したポイントマップマッチングと時間融合のパラダイムの有効性を示す。
論文 参考訳(メタデータ) (2025-04-08T05:33:13Z) - Vision-based 3D Semantic Scene Completion via Capture Dynamic Representations [37.61183525419993]
動的表現のキャプチャによる視覚に基づくロバストなセマンティックなシーンコンプリートを提案する。
マルチモーダルな大規模モデルを用いて2次元的意味論を抽出し,それらを3次元空間に整列させる。
シーン情報を動的・静的な特徴に分離するために,単眼・立体的深度の特徴を利用する。
論文 参考訳(メタデータ) (2025-03-08T13:49:43Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - DynaVol: Unsupervised Learning for Dynamic Scenes through Object-Centric
Voxelization [67.85434518679382]
幾何学構造と物体中心学習を統一した3次元シーン生成モデルDynaVolを提案する。
鍵となるアイデアは、シーンの3D特性を捉えるために、オブジェクト中心のボキセル化を実行することである。
ボクセルの機能は標準空間の変形関数を通じて時間とともに進化し、グローバルな表現学習の基礎を形成する。
論文 参考訳(メタデータ) (2023-04-30T05:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。