論文の概要: RoboDriveVLM: A Novel Benchmark and Baseline towards Robust Vision-Language Models for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2512.01300v1
- Date: Mon, 01 Dec 2025 05:44:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.699682
- Title: RoboDriveVLM: A Novel Benchmark and Baseline towards Robust Vision-Language Models for Autonomous Driving
- Title(参考訳): RoboDriveVLM: 自律運転のためのロバストなビジョンランゲージモデルに向けた新しいベンチマークとベースライン
- Authors: Dacheng Liao, Mengshi Qi, Peng Shu, Zhining Zhang, Yuxin Lin, Liang Liu, Huadong Ma,
- Abstract要約: 現在のビジョンランゲージモデル(VLM)ベースのエンドツーエンド自動運転システムは、大きな言語モデルを利用して駆動決定を生成することが多い。
このベンチマークは、VLMベースのエンドツーエンド自動運転システムにおいて、現実的な課題の2つの重要なカテゴリを体系的に評価する。
我々は,よりマルチモーダルなデータ,例えばライダーやレーダを統合潜在空間にマッピングすることで,ロボドライブVLMと呼ばれる新しいVLMベースの自律走行フレームワークを提案する。
- 参考スコア(独自算出の注目度): 45.00491493068162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Vision-Language Model (VLM)-based end-to-end autonomous driving systems often leverage large language models to generate driving decisions directly based on their understanding of the current scene. However, such systems introduce multiple risks in real-world driving scenarios. To evaluate whether VLMs are truly viable for autonomous driving, we introduce RoboDriveBench, the first robustness benchmark focused on end-to-end trajectory prediction tasks. This benchmark systematically evaluates two critical categories of real-world challenges for VLM-based end-to-end autonomous driving systems through 11 simulated scenarios encompassing various corruption types, including 6 scenarios of sensor corruption caused by environmental variations, along with 5 cases of prompt corruption resulting from human intervention and data transmission failures. Each corruption type includes 250 unique driving scenarios and 5,689 frames, resulting in 64,559 total trajectory prediction cases per evaluation. To overcome these real-world challenges, we propose a novel VLM-based autonomous driving framework called RoboDriveVLM, which enhances robustness by mapping more multimodal data-e.g., lidar and radar-into a unified latent space. Furthermore, we introduce a new Test-Time Adaptation (TTA) method based on cross-modal knowledge distillation to improve the robustness of VLM-based autonomous driving systems. Through extensive experiments, our work highlights the limitations of current VLM-based end-to-end autonomous driving systems and provides a more reliable solution for real-world deployment. Source code and datasets will be released.
- Abstract(参考訳): 現在のビジョンランゲージモデル(VLM)に基づくエンドツーエンドの自動運転システムは、しばしば大きな言語モデルを利用して、現在のシーンの理解に基づいて、運転決定を直接生成する。
しかし、このようなシステムは現実の運転シナリオに複数のリスクをもたらす。
VLMが本当に自律運転に有効かどうかを評価するため、私たちは、エンドツーエンドの軌道予測タスクに焦点を当てた最初のロバスト性ベンチマークであるRoboDriveBenchを紹介した。
このベンチマークは、VLMベースのエンドツーエンド自動運転システムにおいて、環境変動によるセンサ破損の6つのシナリオを含む、さまざまな汚職を含むシミュレーションシナリオ11のシナリオと、人間の介入やデータ伝達障害による迅速な汚職の5つのケースを含む、現実的な課題の2つの重要なカテゴリを体系的に評価する。
それぞれの汚職タイプには250のユニークな運転シナリオと5,689のフレームが含まれており、その結果、評価毎に64,559の軌道予測ケースが生成される。
このような現実的な課題を克服するために,我々は,よりマルチモーダルなデータ-e,lidar,レーダ・イン・レーダ・イン・ラウント空間にマッピングすることで,ロボドライブVLMと呼ばれる新しいVLMベースの自律走行フレームワークを提案する。
さらに, クロスモーダルな知識蒸留に基づくテスト時間適応(TTA)手法を導入し, VLMに基づく自律運転システムのロバスト性を向上させる。
大規模な実験を通じて、我々の研究は、現在のVLMベースのエンドツーエンド自動運転システムの限界を強調し、より信頼性の高いソリューションを現実のデプロイメントに提供します。
ソースコードとデータセットがリリースされる。
関連論文リスト
- AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving [37.260140808367716]
本稿では,自律運転システムの推論能力と自己回帰能力を両立させる新しいVLAフレームワークであるAutoDrive-R$2$を提案する。
まず,教師付き微調整のための新しいCoTデータセット nuScenesR$2$-6K を提案する。
次に, グループ相対政策最適化(GRPO)アルゴリズムを用いて, 信頼性の高い滑らかさと現実的な軌道計画を実現する。
論文 参考訳(メタデータ) (2025-09-02T04:32:24Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving [55.96227460521096]
視覚言語モデル(VLM)は推論能力を高めるために自律運転システムに統合されている。
本稿では,自律運転シナリオにおけるVLMシステムを対象とした自然反射型バックドアアタックを提案する。
我々の発見は、自動運転の厳しいリアルタイム要求を生かした、新たなタイプの攻撃を発見しました。
論文 参考訳(メタデータ) (2025-05-09T20:28:17Z) - Are Vision LLMs Road-Ready? A Comprehensive Benchmark for Safety-Critical Driving Video Understanding [10.242043337117005]
視覚大言語モデル(VLLM)は、画像キャプションや視覚的質問応答といった一般的な視覚的タスクにおいて、印象的な機能を示している。
しかし、自律運転のような専門的で安全に重要な分野におけるその効果は、まだ明らかにされていない。
DVBenchは、安全クリティカルな運転映像の理解において、VLLMの性能を評価するために設計された先駆的なベンチマークである。
論文 参考訳(メタデータ) (2025-04-20T07:50:44Z) - VLM-C4L: Continual Core Dataset Learning with Corner Case Optimization via Vision-Language Models for Autonomous Driving [20.136096264189156]
コーナーケースデータセットを動的に最適化・拡張するために視覚言語モデル(VLM)を導入した連続学習フレームワークであるVLM-C4Lを提案する。
VLM-C4Lは、VLM誘導による高品質なデータ抽出とコアデータ再生戦略を組み合わせることで、モデルが多様なコーナーケースから漸進的に学習できるようにする。
論文 参考訳(メタデータ) (2025-03-29T11:40:34Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。