論文の概要: VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction
- arxiv url: http://arxiv.org/abs/2511.19971v1
- Date: Tue, 25 Nov 2025 06:30:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.303325
- Title: VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction
- Title(参考訳): VGGT4D:4次元シーン再構成のための視覚幾何学変換器のマイニング動作キュー
- Authors: Yu Hu, Chong Cheng, Sicheng Yu, Xiaoyang Guo, Hao Wang,
- Abstract要約: VGGT4Dは、3DファウンデーションモデルであるVGGTを拡張して、堅牢な4Dシーン再構築を実現する。
当社のアプローチは,VGGTのグローバルアテンションレイヤが,リッチでレイヤワイドなダイナミックなキューを暗黙的にエンコードしている,という重要な発見に動機付けられています。
本手法は,動的物体分割,カメラポーズ推定,高密度再構成において優れた性能を実現する。
- 参考スコア(独自算出の注目度): 15.933288728509337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing dynamic 4D scenes is challenging, as it requires robust disentanglement of dynamic objects from the static background. While 3D foundation models like VGGT provide accurate 3D geometry, their performance drops markedly when moving objects dominate. Existing 4D approaches often rely on external priors, heavy post-optimization, or require fine-tuning on 4D datasets. In this paper, we propose VGGT4D, a training-free framework that extends the 3D foundation model VGGT for robust 4D scene reconstruction. Our approach is motivated by the key finding that VGGT's global attention layers already implicitly encode rich, layer-wise dynamic cues. To obtain masks that decouple static and dynamic elements, we mine and amplify global dynamic cues via gram similarity and aggregate them across a temporal window. To further sharpen mask boundaries, we introduce a refinement strategy driven by projection gradient. We then integrate these precise masks into VGGT's early-stage inference, effectively mitigating motion interference in both pose estimation and geometric reconstruction. Across six datasets, our method achieves superior performance in dynamic object segmentation, camera pose estimation, and dense reconstruction. It also supports single-pass inference on sequences longer than 500 frames.
- Abstract(参考訳): 動的4Dシーンの再構築は、静的な背景から動的オブジェクトを堅牢に切り離す必要があるため、難しい。
VGGTのような3Dファンデーションモデルは正確な3D形状を提供するが、移動物体が支配的となると、その性能は著しく低下する。
既存の4Dアプローチは、外部の事前設定、重い後最適化、あるいは4Dデータセットの微調整を必要とすることが多い。
本稿では,3次元基礎モデルであるVGGTを拡張し,ロバストな4次元シーン再構成を実現するトレーニングフリーフレームワークであるVGGT4Dを提案する。
当社のアプローチは,VGGTのグローバルアテンションレイヤが,リッチでレイヤワイドなダイナミックなキューを暗黙的にエンコードしている,という重要な発見に動機付けられています。
静的および動的要素を分離するマスクを得るために,グラム類似性を用いてグローバルなダイナミックキューをマイニング,増幅し,時間的ウィンドウに集約する。
マスク境界をさらに研ぎ澄ますために,プロジェクション勾配によって駆動される改良戦略を導入する。
次に、これらの正確なマスクをVGGTの初期段階の推論に統合し、ポーズ推定と幾何再構成の両方における動き干渉を効果的に緩和する。
提案手法は,6つのデータセットにまたがって,動的オブジェクト分割,カメラポーズ推定,高密度再構成において優れた性能を実現する。
また、500フレーム以上のシーケンスでのシングルパス推論もサポートする。
関連論文リスト
- 4D3R: Motion-Aware Neural Reconstruction and Rendering of Dynamic Scenes from Monocular Videos [52.89084603734664]
静的および動的コンポーネントを2段階のアプローチで分離する,ポーズフリーな動的ニューラルネットワークレンダリングフレームワークである4D3Rを提案する。
提案手法は最先端手法よりも最大1.8dBPSNRの改善を実現する。
論文 参考訳(メタデータ) (2025-11-07T13:25:50Z) - Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - PAGE-4D: Disentangled Pose and Geometry Estimation for 4D Perception [39.819707648812944]
PAGE-4Dはフィードフォワードモデルで、後処理なしでVGGTを動的シーンに拡張する。
ダイナミックス対応マスクを予測することで、静的および動的情報をアンタングルする。
実験の結果、PAGE-4Dは動的シナリオにおいて元のVGGTよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-20T14:17:16Z) - C4D: 4D Made from 3D through Dual Correspondences [77.04731692213663]
時間的対応を利用して既存の3次元再構成を4Dに拡張するフレームワークであるC4Dを紹介する。
C4Dは、短期光学フローと長期点追跡の2種類の対応をキャプチャする。
我々は、追加の移動情報を提供する動的認識ポイントトラッカーを訓練する。
論文 参考訳(メタデータ) (2025-10-16T17:59:06Z) - Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [69.51086319339662]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。
提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。
実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文 参考訳(メタデータ) (2025-03-31T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。