論文の概要: DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2603.08254v1
- Date: Mon, 09 Mar 2026 11:24:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.833353
- Title: DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving
- Title(参考訳): DynamicVGGT:自律走行における4次元シーン再構成のためのダイナミックポイントマップの学習
- Authors: Zhuolin He, Jing Li, Guanghao Li, Xiaolei Chen, Jiacheng Tang, Siyang Zhang, Zhounan Jin, Feipeng Cai, Bin Li, Jian Pu, Jia Cai, Xiangyang Xue,
- Abstract要約: 本稿では,VGGTを静的な3次元知覚から動的4次元再構成まで拡張する統合フィードフォワードフレームワークを提案する。
我々のゴールは、フィードフォワード3Dモデル内の点運動を動的かつ時間的コヒーレントな方法でモデル化することである。
自律走行データセットの実験では、DynamicVGGTは復元精度において既存の手法よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 36.56424549984779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic scene reconstruction in autonomous driving remains a fundamental challenge due to significant temporal variations, moving objects, and complex scene dynamics. Existing feed-forward 3D models have demonstrated strong performance in static reconstruction but still struggle to capture dynamic motion. To address these limitations, we propose DynamicVGGT, a unified feed-forward framework that extends VGGT from static 3D perception to dynamic 4D reconstruction. Our goal is to model point motion within feed-forward 3D models in a dynamic and temporally coherent manner. To this end, we jointly predict the current and future point maps within a shared reference coordinate system, allowing the model to implicitly learn dynamic point representations through temporal correspondence. To efficiently capture temporal dependencies, we introduce a Motion-aware Temporal Attention (MTA) module that learns motion continuity. Furthermore, we design a Dynamic 3D Gaussian Splatting Head that explicitly models point motion by predicting Gaussian velocities using learnable motion tokens under scene flow supervision. It refines dynamic geometry through continuous 3D Gaussian optimization. Extensive experiments on autonomous driving datasets demonstrate that DynamicVGGT significantly outperforms existing methods in reconstruction accuracy, achieving robust feed-forward 4D dynamic scene reconstruction under complex driving scenarios.
- Abstract(参考訳): 自律走行における動的シーン再構成は、時間的変動、移動物体、複雑なシーンダイナミクスにより、依然として根本的な課題である。
既存のフィードフォワード3Dモデルは、静的再構成において強い性能を示したが、動的動きを捉えるのに苦戦している。
これらの制約に対処するため,静的な3次元知覚から動的4次元再構成までVGGTを拡張する統合フィードフォワードフレームワークであるDynamicVGGTを提案する。
我々のゴールは、フィードフォワード3Dモデル内の点運動を動的かつ時間的コヒーレントな方法でモデル化することである。
この目的のために、共有参照座標系内の現在点マップと将来の点マップを共同で予測し、時間対応を通して動的点表現を暗黙的に学習できるようにする。
時間的依存を効果的に捉えるため,動作継続性を学ぶMTAモジュールを導入する。
さらに,シーンフロー監視下で学習可能な動作トークンを用いてガウス速度を予測し,点運動を明示的にモデル化する動的3次元ガウス投射ヘッドを設計する。
連続した3次元ガウス最適化により動的幾何学を洗練する。
自律運転データセットに関する大規模な実験により、DynamicVGGTは、複雑な運転シナリオ下での堅牢なフィードフォワード4Dダイナミックシーン再構築を実現し、復元精度において既存の手法よりも大幅に優れていることが示された。
関連論文リスト
- MoRel: Long-Range Flicker-Free 4D Motion Modeling via Anchor Relay-based Bidirectional Blending with Hierarchical Densification [10.799902862870288]
MoRelは、時間的に一貫したメモリ効率のモデリングのための新しいフレームワークである。
我々のアプローチは、時間的不連続を緩和し、成果物をひらめかせる。
境界メモリ使用率を維持しつつ、時間的コヒーレントでフリッカフリーなロングレンジ4D再構成を実現する。
論文 参考訳(メタデータ) (2025-12-10T02:49:09Z) - 4D3R: Motion-Aware Neural Reconstruction and Rendering of Dynamic Scenes from Monocular Videos [52.89084603734664]
静的および動的コンポーネントを2段階のアプローチで分離する,ポーズフリーな動的ニューラルネットワークレンダリングフレームワークである4D3Rを提案する。
提案手法は最先端手法よりも最大1.8dBPSNRの改善を実現する。
論文 参考訳(メタデータ) (2025-11-07T13:25:50Z) - 4DRadar-GS: Self-Supervised Dynamic Driving Scene Reconstruction with 4D Radar [15.713470339586058]
動的駆動シーンに適した4次元レーダ拡張型自己教師型3次元再構成フレームワークを提案する。
4DRadar-GSは動的駆動シーン3次元再構成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-16T10:29:43Z) - HAIF-GS: Hierarchical and Induced Flow-Guided Gaussian Splatting for Dynamic Scene [24.789092424634536]
本稿では,スパースアンカー駆動変形による構造的・一貫した動的モデリングを実現する統合フレームワークHAIF-GSを提案する。
HAIF-GSは, レンダリング品質, 時間的コヒーレンス, 再構成効率において, 従来の動的3DGS法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-06-11T08:45:08Z) - Embracing Dynamics: Dynamics-aware 4D Gaussian Splatting SLAM [0.0]
D4DGS-SLAMは動的環境に対する4DGSマップ表現に基づく最初のSLAM法である。
提案手法は,カメラのポーズトラッキングとマップの品質の両方において,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T08:56:35Z) - Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving [116.10577967146762]
マルチビュー画像シーケンスからフレーム単位のポイントマップを直接回帰するフレームワークであるDriv3Rを提案する。
我々は4次元フロー予測器を用いてシーン内の移動物体を識別し、これらの動的領域の再構築をより重視する。
Driv3Rは4D動的シーン再構築において従来のフレームワークより優れており、推論速度は15倍高速である。
論文 参考訳(メタデータ) (2024-12-09T18:58:03Z) - UrbanGS: Semantic-Guided Gaussian Splatting for Urban Scene Reconstruction [86.4386398262018]
UrbanGSは2Dセマンティックマップと既存の動的ガウスアプローチを使って静的オブジェクトとシーンを区別する。
動的オブジェクトに対して、学習可能な時間埋め込みを用いて時間情報を集約する。
提案手法は, 修復の質と効率性において, 最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-12-04T16:59:49Z) - Event-boosted Deformable 3D Gaussians for Dynamic Scene Reconstruction [50.873820265165975]
本稿では,高時間分解能連続運動データと動的シーン再構成のための変形可能な3D-GSを併用したイベントカメラについて紹介する。
本稿では、3次元再構成としきい値モデリングの両方を大幅に改善する相互強化プロセスを作成するGS-Thresholdジョイントモデリング戦略を提案する。
提案手法は,合成および実世界の動的シーンを用いた最初のイベント包摂型4Dベンチマークであり,その上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-25T08:23:38Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z) - Dynamic 3D Gaussians: Tracking by Persistent Dynamic View Synthesis [58.5779956899918]
動的シーンビュー合成と6自由度(6-DOF)追跡のタスクを同時に処理する手法を提案する。
我々は、シーンを3Dガウスアンのコレクションとしてモデル化する最近の研究に触発された、分析バイシンセサイザーの枠組みに従う。
我々は,1人称視点合成,動的合成シーン合成,4次元映像編集など,我々の表現によって実現された多数のダウンストリームアプリケーションを紹介した。
論文 参考訳(メタデータ) (2023-08-18T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。