論文の概要: DGGT: Feedforward 4D Reconstruction of Dynamic Driving Scenes using Unposed Images
- arxiv url: http://arxiv.org/abs/2512.03004v1
- Date: Tue, 02 Dec 2025 18:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:46.004135
- Title: DGGT: Feedforward 4D Reconstruction of Dynamic Driving Scenes using Unposed Images
- Title(参考訳): DGGT:非ポーズ画像を用いた動的運転シーンのフィードフォワード4次元再構成
- Authors: Xiaoxue Chen, Ziyi Xiong, Yuantao Chen, Gen Li, Nan Wang, Hongcheng Luo, Long Chen, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Hongyang Li, Ya-Qin Zhang, Hao Zhao,
- Abstract要約: ポーズレス動的シーン再構築のための統合フレームワークである textbf driving Gaussian Grounded Transformer (DGGT) を紹介する。
提案手法は,フレームごとの3次元ガウスマップとカメラパラメータを共同で予測し,軽量なダイナミックヘッドでダイナミックスを歪曲する。
拡散ベースのレンダリング改善により、運動・補間アーティファクトがさらに減少し、スパース入力下での新規ビュー品質が向上する。
- 参考スコア(独自算出の注目度): 36.562825380568384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving needs fast, scalable 4D reconstruction and re-simulation for training and evaluation, yet most methods for dynamic driving scenes still rely on per-scene optimization, known camera calibration, or short frame windows, making them slow and impractical. We revisit this problem from a feedforward perspective and introduce \textbf{Driving Gaussian Grounded Transformer (DGGT)}, a unified framework for pose-free dynamic scene reconstruction. We note that the existing formulations, treating camera pose as a required input, limit flexibility and scalability. Instead, we reformulate pose as an output of the model, enabling reconstruction directly from sparse, unposed images and supporting an arbitrary number of views for long sequences. Our approach jointly predicts per-frame 3D Gaussian maps and camera parameters, disentangles dynamics with a lightweight dynamic head, and preserves temporal consistency with a lifespan head that modulates visibility over time. A diffusion-based rendering refinement further reduces motion/interpolation artifacts and improves novel-view quality under sparse inputs. The result is a single-pass, pose-free algorithm that achieves state-of-the-art performance and speed. Trained and evaluated on large-scale driving benchmarks (Waymo, nuScenes, Argoverse2), our method outperforms prior work both when trained on each dataset and in zero-shot transfer across datasets, and it scales well as the number of input frames increases.
- Abstract(参考訳): 自動運転は、訓練と評価のために高速でスケーラブルな4D再構築と再シミュレーションを必要とするが、動的運転シーンのほとんどの方法は、シーンごとの最適化、既知のカメラキャリブレーション、あるいはショートフレームウィンドウに依存しており、遅くて実用的ではない。
我々は、フィードフォワードの観点からこの問題を再考し、ポーズフリーな動的シーン再構築のための統合フレームワークである \textbf{Driving Gaussian Grounded Transformer (DGGT) を紹介した。
既存の定式化では、カメラは必要な入力として機能し、柔軟性とスケーラビリティを制限している。
代わりに、モデルの出力としてポーズを再構成し、スパース、アンポーズ画像から直接再構成し、長いシーケンスに対する任意の数のビューをサポートする。
提案手法は,フレームごとの3次元ガウスマップとカメラパラメータを共同で予測し,軽量なダイナミックヘッドで動的に乱れ,時間とともに可視性を変化させるライフスパンヘッドとの時間的整合性を保持する。
拡散ベースのレンダリング改善により、運動・補間アーティファクトがさらに減少し、スパース入力下での新規ビュー品質が向上する。
結果は、最先端のパフォーマンスとスピードを達成するシングルパスのポーズフリーアルゴリズムである。
大規模運転ベンチマーク(Waymo, nuScenes, Argoverse2)でトレーニングおよび評価を行い, 提案手法は, 各データセットでのトレーニングおよびデータセット間のゼロショット転送において, 先行作業よりも優れており, 入力フレーム数の増加とともにスケールする。
関連論文リスト
- GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。
ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文 参考訳(メタデータ) (2025-06-30T15:24:27Z) - FreeDriveRF: Monocular RGB Dynamic NeRF without Poses for Autonomous Driving via Point-Level Dynamic-Static Decoupling [13.495102292705253]
FreeDriveRFは、ポーズ入力を必要とせずにシーケンシャルなRGB画像のみを使用して動的駆動シーンを再構築する。
我々は、動的モデリングプロセスの制約を改善するために光学的流れを利用する、歪んだ光線誘導動的オブジェクトレンダリング整合性損失を導入する。
論文 参考訳(メタデータ) (2025-05-14T14:02:49Z) - DrivingForward: Feed-forward 3D Gaussian Splatting for Driving Scene Reconstruction from Flexible Surround-view Input [45.04354435388718]
フレキシブル・サラウンド・ビュー・インプットから運転シーンを再構成するフィードフォワードガウス・スプレイティング・モデルを提案する。
我々は、ポーズネットワーク、ディープネットワーク、およびガウスネットワークを共同でトレーニングし、運転シーンを表すプリミティブを予測する。
提案モデルでは,既存のフィードフォワードやシーン最適化の手法よりも再現性が高い。
論文 参考訳(メタデータ) (2024-09-19T13:16:04Z) - DynaMoN: Motion-Aware Fast and Robust Camera Localization for Dynamic Neural Radiance Fields [71.94156412354054]
動的ニューラルラジアンス場(DynaMoN)の高速かつロバストなカメラ位置推定法を提案する。
DynaMoNは、初期のカメラポーズ推定と高速で正確なノベルビュー合成のための静的集光線サンプリングのために動的コンテンツを処理している。
我々は,TUM RGB-DデータセットとBONN RGB-D Dynamicデータセットの2つの実世界の動的データセットに対するアプローチを広く評価した。
論文 参考訳(メタデータ) (2023-09-16T08:46:59Z) - SceNeRFlow: Time-Consistent Reconstruction of General Dynamic Scenes [75.9110646062442]
我々はSceNeRFlowを提案し、時間的一貫性のある方法で一般的な非剛体シーンを再構築する。
提案手法は,カメラパラメータを入力として,静止カメラからのマルチビューRGBビデオと背景画像を取得する。
実験により,小規模動作のみを扱う先行作業とは異なり,スタジオスケール動作の再構築が可能であることが示された。
論文 参考訳(メタデータ) (2023-08-16T09:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。