論文の概要: PAGE-4D: Disentangled Pose and Geometry Estimation for 4D Perception
- arxiv url: http://arxiv.org/abs/2510.17568v1
- Date: Mon, 20 Oct 2025 14:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.479001
- Title: PAGE-4D: Disentangled Pose and Geometry Estimation for 4D Perception
- Title(参考訳): PAGE-4D:四次元知覚のための遠交点と幾何学的推定
- Authors: Kaichen Zhou, Yuhan Wang, Grace Chen, Xinhai Chang, Gaspard Beaudouin, Fangneng Zhan, Paul Pu Liang, Mengyu Wang,
- Abstract要約: PAGE-4Dはフィードフォワードモデルで、後処理なしでVGGTを動的シーンに拡張する。
ダイナミックス対応マスクを予測することで、静的および動的情報をアンタングルする。
実験の結果、PAGE-4Dは動的シナリオにおいて元のVGGTよりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 39.819707648812944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent 3D feed-forward models, such as the Visual Geometry Grounded Transformer (VGGT), have shown strong capability in inferring 3D attributes of static scenes. However, since they are typically trained on static datasets, these models often struggle in real-world scenarios involving complex dynamic elements, such as moving humans or deformable objects like umbrellas. To address this limitation, we introduce PAGE-4D, a feedforward model that extends VGGT to dynamic scenes, enabling camera pose estimation, depth prediction, and point cloud reconstruction -- all without post-processing. A central challenge in multi-task 4D reconstruction is the inherent conflict between tasks: accurate camera pose estimation requires suppressing dynamic regions, while geometry reconstruction requires modeling them. To resolve this tension, we propose a dynamics-aware aggregator that disentangles static and dynamic information by predicting a dynamics-aware mask -- suppressing motion cues for pose estimation while amplifying them for geometry reconstruction. Extensive experiments show that PAGE-4D consistently outperforms the original VGGT in dynamic scenarios, achieving superior results in camera pose estimation, monocular and video depth estimation, and dense point map reconstruction.
- Abstract(参考訳): 最近の3Dフィードフォワードモデル、例えばVisual Geometry Grounded Transformer (VGGT)は、静的シーンの3D属性を推測する強力な能力を示している。
しかしながら、これらのモデルは一般的に静的なデータセットで訓練されているため、人間を動かすことや傘のような変形可能なオブジェクトのような複雑な動的要素を含む現実世界のシナリオで苦労することが多い。
この制限に対処するため、私たちは、VGGTをダイナミックなシーンに拡張し、カメラのポーズ推定、深さ予測、ポイントクラウド再構築を可能にするフィードフォワードモデルであるPAGE-4Dを紹介します。
マルチタスク4D再構成における中心的な課題は、タスク間の固有の衝突である: 正確なカメラポーズ推定は動的領域の抑制を必要とするが、幾何学的再構成はそれらをモデル化する必要がある。
この緊張を解消するために,動的マスキングを予測して静的・動的情報をアンタングルする動的・動的アグリゲータを提案する。
PAGE-4Dは、カメラポーズ推定、単眼・ビデオ深度推定、高密度点マップ再構成において、従来のVGGTよりも常に優れた結果が得られることを示す。
関連論文リスト
- C4D: 4D Made from 3D through Dual Correspondences [77.04731692213663]
時間的対応を利用して既存の3次元再構成を4Dに拡張するフレームワークであるC4Dを紹介する。
C4Dは、短期光学フローと長期点追跡の2種類の対応をキャプチャする。
我々は、追加の移動情報を提供する動的認識ポイントトラッカーを訓練する。
論文 参考訳(メタデータ) (2025-10-16T17:59:06Z) - D^2USt3R: Enhancing 3D Reconstruction with 4D Pointmaps for Dynamic Scenes [40.371542172080105]
そこで我々は,D2USt3Rを提案する。D2USt3Rは,静的および動的3次元シーンの形状をフィードフォワード方式でシミュレートする。
本手法は,空間的側面と時間的側面の両方を明示的に取り入れることで,提案した4次元ポイントマップへのオブジェクト時間密度対応をカプセル化し,下流タスクを増強する。
論文 参考訳(メタデータ) (2025-04-08T17:59:50Z) - Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [69.51086319339662]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。
提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。
実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文 参考訳(メタデータ) (2025-03-31T17:59:58Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。