論文の概要: VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2510.23205v1
- Date: Mon, 27 Oct 2025 10:49:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.525723
- Title: VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
- Title(参考訳): VR-Drive:フィードフォワード型3Dガウススプレイティングによる終端運転の視点制御
- Authors: Hoonhee Cho, Jae-Young Kang, Giwon Lee, Hyemin Yang, Heejun Park, Seokwoo Jung, Kuk-Jin Yoon,
- Abstract要約: VR-Driveは、3Dシーン再構築を共同で学習することで視点一般化に対処する新しいE2E-ADフレームワークである。
我々の結果は、VR-Driveがエンドツーエンドの自動運転システムの現実的な展開のためのスケーラブルで堅牢なソリューションであることを実証している。
- 参考スコア(独自算出の注目度): 47.78433964322689
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.
- Abstract(参考訳): E2E-AD(End-to-end autonomous driving)は、知覚、予測、計画を総合的でデータ駆動のフレームワークに統合する、有望なパラダイムとして登場した。
しかし、様々なカメラの視点に対する堅牢性を達成することは、様々な車両構成による現実世界の共通の課題であり、依然として未解決の問題である。
本研究では,3次元シーン再構成を協調学習することで視点の一般化に対処する新しいE2E-ADフレームワークであるVR-Driveを提案する。
従来のシーン固有の合成アプローチとは異なり、VR-Driveは、追加アノテーションなしでスパースビューからのオンライントレーニング時間拡張をサポートするフィードフォワード推論戦略を採用している。
視点整合性をさらに向上するため,複数視点間の時間的相互作用を容易にする視点混在型メモリバンクと,オリジナルから合成された視点へ知識を伝達する視点整合型蒸留戦略を導入する。
完全なエンドツーエンドでトレーニングされたVR-Driveは、合成誘起ノイズを効果的に軽減し、視点シフト下での計画を改善する。
さらに、新しいカメラ視点下でのE2E-AD性能を評価するためのベンチマークデータセットを新たにリリースし、包括的な分析を可能にした。
我々の結果は、VR-Driveがエンドツーエンドの自動運転システムの現実的な展開のためのスケーラブルで堅牢なソリューションであることを実証している。
関連論文リスト
- OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2025-04-06T03:54:21Z) - HiP-AD: Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder [3.0989923815412204]
我々は、HiP-ADと呼ばれる新しいエンドツーエンドの自動運転フレームワークを提案する。
HiP-ADは同時に、統合デコーダ内で認識、予測、計画を行う。
HiP-ADは、クローズドループベンチマークであるBench2Driveにおいて、既存のエンドツーエンドの自動運転手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-03-11T16:52:45Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - VLM-E2E: Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion [8.738991730715039]
VLM-E2Eは、視覚言語モデルを用いて、注意喚起手段を提供することでトレーニングを強化する新しいフレームワークである。
注意の意味論に焦点を当てることで、VLM-E2Eは人間のような運転行動と整合し、ダイナミックで複雑な環境をナビゲートするのに重要である。
我々は、nuScenesデータセット上でVLM-E2Eを評価し、ベースラインのエンドツーエンドモデルに対する認識、予測、計画の大幅な改善を実現した。
論文 参考訳(メタデータ) (2025-02-25T10:02:12Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。