論文の概要: 4DVGGT-D: 4D Visual Geometry Transformer with Improved Dynamic Depth Estimation
- arxiv url: http://arxiv.org/abs/2605.12027v1
- Date: Tue, 12 May 2026 12:13:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.847986
- Title: 4DVGGT-D: 4D Visual Geometry Transformer with Improved Dynamic Depth Estimation
- Title(参考訳): 4DVGGT-D:動的深さ推定を改良した4次元視覚形状変換器
- Authors: Ying Zang, Xuanyi Liu, Yidong Han, Deyi Ji, Chaotao Ding, Yuanqi Hu, Qi Zhu, Xuanfu Li, Jin Ma, Lingyun Sun, Tianrun Chen, Lanyun Zhu,
- Abstract要約: そこで本研究では,静的から大まかに動的に切り離す学習自由なプログレッシブデカップリングフレームワークを提案する。
本手法は, 微調整を必要とせず, 頑健な4次元シーン再構成における競争性能を示す。
- 参考スコア(独自算出の注目度): 38.64669047442234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing dynamic 4D scenes from monocular videos is a fundamental yet challenging task. While recent 3D foundation models provide strong geometric priors, their performance significantly degrades in dynamic environments. This degradation stems from a fundamental tension: the inherent coupling of camera ego-motion and object motion within global attention mechanisms. In this paper, we propose a novel, training-free progressive decoupling framework that disentangles dynamics from statics in a principled, coarse-to-fine manner. Our core insight is to resolve the tension by first stabilizing the camera pose, followed by geometric refinement. Specifically, our approach consists of three synergistic components: (1) a Dynamic-Mask-Guided Pose Decoupling module that isolates pose estimation from dynamic interference, yielding a stable motion-free reference frame; (2) a Topological Subspace Surgery mechanism that orthogonally decomposes the depth manifold, safely preserving dynamic objects while injecting refined, mask-aware geometry into static regions; and (3) an Information-Theoretic Confidence-Aware Fusion strategy that formulates depth integration as a heteroscedastic Bayesian inference problem, adaptively blending multi-pass predictions via inverse-variance weighting. Extensive experiments on standard 4D reconstruction benchmarks demonstrate that our method achieves consistent and substantial improvements across principal point-cloud metrics. Notably, our approach shows competitive performance in robust 4D scene reconstruction without requiring fine-tuning, suggesting the potential of mathematically grounded dynamic-static disentanglement.
- Abstract(参考訳): モノクロビデオからダイナミックな4Dシーンを再構築することは、基本的だが難しい課題だ。
最近の3Dファンデーションモデルは強力な幾何学的先行性を提供するが、その性能は動的環境において著しく低下する。
この劣化は、カメラのエゴモーションと、グローバルな注意機構内での物体の動きの結合という、基本的な緊張に由来する。
本稿では, 動的を静的から大まかに分離する, 学習自由なプログレッシブデカップリングフレームワークを提案する。
私たちの中核となる洞察は、まずカメラのポーズを安定させ、次に幾何学的な精細化によって緊張を解消することです。
具体的には,(1)動的マスク・ガイド・ポッド・デカップリングモジュールによる動的干渉からのポーズ推定を分離し,安定した動きのない参照フレームを得る,(2)深度多様体を直交的に分解する,動的オブジェクトを静的領域に注入しながら安全に保存するトポロジカルサブスペース手術機構,(3)深度積分をヘテロセダスティックベイズ推論問題として定式化する情報理論信頼度・アウェア・フュージョン(Information-Theoretic Confidence-Aware Fusion)戦略,および,逆分散重み付けによるマルチパス予測を適応的にブレンドする,という3つの相乗的要素から構成される。
標準的な4次元再構成ベンチマークの大規模な実験により,本手法は主要なポイントクラウドメトリクス間で一貫した,実質的な改善を達成できることが示された。
提案手法は, 微調整を必要とせず, 頑健な4次元シーン再構成における競合性能を示す。
関連論文リスト
- Robust 4D Visual Geometry Transformer with Uncertainty-Aware Priors [38.939519059502025]
再構成プロセスの異なる段階にわたる不確実性をモデル化し,動的および静的なコンポーネントをアンタングル化するフレームワークを提案する。
提案手法は平均精度の誤差を13.43%削減し,セグメント化F尺度を10.49%改善する。
我々のフレームワークはフィードフォワード推論の効率を維持しており、タスク固有の微調整やシーンごとの最適化は不要である。
論文 参考訳(メタデータ) (2026-04-10T14:36:50Z) - Resonance4D: Frequency-Domain Motion Supervision for Preset-Free Physical Parameter Learning in 4D Dynamic Physical Scene Simulation [53.141181758015186]
Resonance4Dは3次元ガウス散乱と物質点法を結合した物理駆動4次元動的シミュレーションフレームワークである。
我々の重要な洞察は、動的整合性は、相補的領域における共同的拘束運動によって、高密度時間発生なしに強制できるということである。
Resonance4Dは、ピークGPUメモリを35,GB以上から20GB程度に削減しつつ、強力な物理忠実性と運動の整合性を実現する。
論文 参考訳(メタデータ) (2026-04-02T13:00:22Z) - MotionScale: Reconstructing Appearance, Geometry, and Motion of Dynamic Scenes with Scalable 4D Gaussian Splatting [54.859943475818234]
MotionScaleは、4Dガウススティングフレームワークで、大きなシーンや拡張シーケンスに効率よくスケールする。
挑戦的な実世界のベンチマークの実験では、MotionScaleは復元品質と時間的安定性の両方において最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2026-03-31T06:03:59Z) - AeroDGS: Physically Consistent Dynamic Gaussian Splatting for Single-Sequence Aerial 4D Reconstruction [12.180817136544148]
本稿では,単眼UAVビデオのための物理誘導型4DガウススプラッティングフレームワークであるAeroDGSを紹介する。
本研究では, 安定な静的および動的幾何を1つの空中シーケンスから再構成するモノクロ幾何リフティングモジュールを提案する。
さらに、様々な高度と運動条件にまたがる実際のUAVデータセットを構築し、動的空中再構成を評価する。
論文 参考訳(メタデータ) (2026-02-25T20:20:27Z) - Motion4D: Learning 3D-Consistent Motion and Semantics for 4D Scene Understanding [54.859943475818234]
基礎モデルからの2次元先行を統一された4次元ガウススプラッティング表現に統合する新しいフレームワークであるMotion4Dを提案する。
1) 局所的な一貫性を維持するために連続的に動き場と意味体を更新する逐次最適化,2) 長期的コヒーレンスのために全ての属性を共同で洗練するグローバル最適化,である。
提案手法は,ポイントベーストラッキング,ビデオオブジェクトセグメンテーション,新しいビュー合成など,多様なシーン理解タスクにおいて,2次元基礎モデルと既存の3Dベースアプローチの両方に優れる。
論文 参考訳(メタデータ) (2025-12-03T09:32:56Z) - 4D3R: Motion-Aware Neural Reconstruction and Rendering of Dynamic Scenes from Monocular Videos [52.89084603734664]
静的および動的コンポーネントを2段階のアプローチで分離する,ポーズフリーな動的ニューラルネットワークレンダリングフレームワークである4D3Rを提案する。
提案手法は最先端手法よりも最大1.8dBPSNRの改善を実現する。
論文 参考訳(メタデータ) (2025-11-07T13:25:50Z) - PAGE-4D: Disentangled Pose and Geometry Estimation for 4D Perception [39.819707648812944]
PAGE-4Dはフィードフォワードモデルで、後処理なしでVGGTを動的シーンに拡張する。
ダイナミックス対応マスクを予測することで、静的および動的情報をアンタングルする。
実験の結果、PAGE-4Dは動的シナリオにおいて元のVGGTよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-20T14:17:16Z) - Event-boosted Deformable 3D Gaussians for Dynamic Scene Reconstruction [50.873820265165975]
本稿では,高時間分解能連続運動データと動的シーン再構成のための変形可能な3D-GSを併用したイベントカメラについて紹介する。
本稿では、3次元再構成としきい値モデリングの両方を大幅に改善する相互強化プロセスを作成するGS-Thresholdジョイントモデリング戦略を提案する。
提案手法は,合成および実世界の動的シーンを用いた最初のイベント包摂型4Dベンチマークであり,その上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-25T08:23:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。