Fugu-MT 論文翻訳(概要): ReconDrive: Fast Feed-Forward 4D Gaussian Splatting for Autonomous Driving Scene Reconstruction

論文の概要: ReconDrive: Fast Feed-Forward 4D Gaussian Splatting for Autonomous Driving Scene Reconstruction

arxiv url: http://arxiv.org/abs/2603.07552v1
Date: Sun, 08 Mar 2026 09:31:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:14.801586
Title: ReconDrive: Fast Feed-Forward 4D Gaussian Splatting for Autonomous Driving Scene Reconstruction
Title（参考訳）: ReconDrive: 自動走行シーン再構築のための高速フィードフォワード4Dガウス切削
Authors: Haibao Yu, Kuntao Xiao, Jiahang Wang, Ruiyang Hao, Yuxin Huang, Guoran Hu, Haifang Qin, Bowen Jing, Yuntian Bo, Ping Luo,
Abstract要約: ReconDriveはフィードフォワードフレームワークで、3DファウンデーションモデルであるVGGTを利用して高速で高忠実な4DGSを生成する。 nuScenesをベンチマークし、ReconDriveは既存のフィードフォワードベースライン、新しいビュー合成、そして3D知覚を著しく上回っている。
参考スコア（独自算出の注目度）: 32.767300244488645
License: http://creativecommons.org/licenses/by/4.0/
Abstract: High-fidelity visual reconstruction and novel-view synthesis are essential for realistic closed-loop evaluation in autonomous driving. While 4D Gaussian Splatting (4DGS) offers a promising balance of accuracy and efficiency, existing per-scene optimization methods require costly iterative refinement, rendering them unscalable for extensive urban environments. Conversely, current feed-forward approaches often suffer from degraded photometric quality. To address these limitations, we propose ReconDrive, a feed-forward framework that leverages and extends the 3D foundation model VGGT for rapid, high-fidelity 4DGS generation. Our architecture introduces two core adaptations to tailor the foundation model to dynamic driving scenes: (1) Hybrid Gaussian Prediction Heads, which decouple the regression of spatial coordinates and appearance attributes to overcome the photometric deficiencies inherent in generalized foundation features; and (2) a Static-Dynamic 4D Composition strategy that explicitly captures temporal motion via velocity modeling to represent complex dynamic environments. Benchmarked on nuScenes, ReconDrive significantly outperforms existing feed-forward baselines in reconstruction, novel-view synthesis, and 3D perception. It achieves performance competitive with per-scene optimization while being orders of magnitude faster, providing a scalable and practical solution for realistic driving simulation.
Abstract（参考訳）: 高忠実度視覚再構成と新規ビュー合成は、自律運転における現実的な閉ループ評価に不可欠である。 4D Gaussian Splatting (4DGS) は精度と効率の有望なバランスを提供するが、既存のシーンごとの最適化手法ではコストのかかる反復的な改善が必要であり、広範囲の都市環境では実現不可能である。逆に、現在のフィードフォワードアプローチは、しばしば劣化した測光品質に悩まされる。これらの制約に対処するため,高速かつ高忠実な4DGS生成のための3DファンデーションモデルVGGTを活用して拡張するフィードフォワードフレームワークであるReconDriveを提案する。 1)空間座標と外観属性の回帰を分離し、一般化された基礎特徴に固有の光度欠陥を克服するハイブリッドガウス予測ヘッド、(2)複雑な動的環境を表現するために速度モデルを用いて時間運動を明示的に捉える静的動的4D構成戦略である。 nuScenesをベンチマークし、ReconDriveは既存のフィードフォワードベースライン、新しいビュー合成、そして3D知覚を著しく上回っている。シーンごとの最適化と競合し、桁違いに高速であり、リアルな運転シミュレーションのためのスケーラブルで実用的なソリューションを提供する。

関連論文リスト

EVolSplat4D: Efficient Volume-based Gaussian Splatting for 4D Urban Scene Synthesis [43.898895514609286]
EvolSplat4Dは、ボリュームベースとピクセルベースのガウス予測を統合することで、既存のピクセル単位のパラダイムを超えたフィードフォワードフレームワークである。 EvolSplat4Dは静的環境と動的環境の両方を高い精度と一貫性で再構成し、シーンごとの最適化と最先端のフィードフォワードベースラインの両方に優れることを示す。
論文参考訳（メタデータ） (2026-01-22T13:39:29Z)
Motion4D: Learning 3D-Consistent Motion and Semantics for 4D Scene Understanding [54.859943475818234]
基礎モデルからの2次元先行を統一された4次元ガウススプラッティング表現に統合する新しいフレームワークであるMotion4Dを提案する。 1) 局所的な一貫性を維持するために連続的に動き場と意味体を更新する逐次最適化,2) 長期的コヒーレンスのために全ての属性を共同で洗練するグローバル最適化,である。提案手法は,ポイントベーストラッキング,ビデオオブジェクトセグメンテーション,新しいビュー合成など,多様なシーン理解タスクにおいて,2次元基礎モデルと既存の3Dベースアプローチの両方に優れる。
論文参考訳（メタデータ） (2025-12-03T09:32:56Z)
DGGT: Feedforward 4D Reconstruction of Dynamic Driving Scenes using Unposed Images [36.562825380568384]
ポーズレス動的シーン再構築のための統合フレームワークである textbf driving Gaussian Grounded Transformer (DGGT) を紹介する。提案手法は,フレームごとの3次元ガウスマップとカメラパラメータを共同で予測し,軽量なダイナミックヘッドでダイナミックスを歪曲する。拡散ベースのレンダリング改善により、運動・補間アーティファクトがさらに減少し、スパース入力下での新規ビュー品質が向上する。
論文参考訳（メタデータ） (2025-12-02T18:29:18Z)
4D3R: Motion-Aware Neural Reconstruction and Rendering of Dynamic Scenes from Monocular Videos [52.89084603734664]
静的および動的コンポーネントを2段階のアプローチで分離する,ポーズフリーな動的ニューラルネットワークレンダリングフレームワークである4D3Rを提案する。提案手法は最先端手法よりも最大1.8dBPSNRの改善を実現する。
論文参考訳（メタデータ） (2025-11-07T13:25:50Z)
4DRadar-GS: Self-Supervised Dynamic Driving Scene Reconstruction with 4D Radar [15.713470339586058]
動的駆動シーンに適した4次元レーダ拡張型自己教師型3次元再構成フレームワークを提案する。 4DRadar-GSは動的駆動シーン3次元再構成における最先端性能を実現する。
論文参考訳（メタデータ） (2025-09-16T10:29:43Z)
CoDa-4DGS: Dynamic Gaussian Splatting with Context and Deformation Awareness for Autonomous Driving [12.006435326659526]
ダイナミックなシーンレンダリングを改善するために,新しい4次元ガウススプラッティング(4DGS)手法を提案する。具体的には,2次元セマンティックセグメンテーション基盤モデルを用いて,ガウスの4次元セマンティック特徴を自己監督する。意味的変形特徴と時間的変形特徴の両方を集約して符号化することにより、各ガウスは潜在的な変形補償のための手がかりを備える。
論文参考訳（メタデータ） (2025-03-09T19:58:51Z)
OG-Gaussian: Occupancy Based Street Gaussians for Autonomous Driving [12.47557991785691]
我々は,LiDAR点雲をサラウンドビューカメラ画像から生成されたOG(Occupancy Grids)に置き換える新しいアプローチであるOG-Gaussianを提案する。提案手法は,OGのセマンティック情報を利用して静的道路背景から動的車両を分離し,これらのグリッドを2つの初期点雲に変換し,静的物体と動的物体の両方を再構成する。 Openデータセットの実験では、OG-Gaussianは復元品質とレンダリング速度の点で現在の最先端と同等であり、平均PSNRは35.13、レンダリング速度は143 FPSであることが示された。
論文参考訳（メタデータ） (2025-02-20T04:00:47Z)
4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文参考訳（メタデータ） (2024-12-30T05:30:26Z)
Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving [116.10577967146762]
マルチビュー画像シーケンスからフレーム単位のポイントマップを直接回帰するフレームワークであるDriv3Rを提案する。我々は4次元フロー予測器を用いてシーン内の移動物体を識別し、これらの動的領域の再構築をより重視する。 Driv3Rは4D動的シーン再構築において従来のフレームワークより優れており、推論速度は15倍高速である。
論文参考訳（メタデータ） (2024-12-09T18:58:03Z)
Event-boosted Deformable 3D Gaussians for Dynamic Scene Reconstruction [50.873820265165975]
本稿では,高時間分解能連続運動データと動的シーン再構成のための変形可能な3D-GSを併用したイベントカメラについて紹介する。本稿では、3次元再構成としきい値モデリングの両方を大幅に改善する相互強化プロセスを作成するGS-Thresholdジョイントモデリング戦略を提案する。提案手法は,合成および実世界の動的シーンを用いた最初のイベント包摂型4Dベンチマークであり,その上で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-11-25T08:23:38Z)
EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。本手法はセンサシミュレーションにおける最先端性能を実現する。
論文参考訳（メタデータ） (2023-11-03T17:59:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。