論文の概要: Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives
- arxiv url: http://arxiv.org/abs/2501.04003v1
- Date: Tue, 07 Jan 2025 18:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:46:45.915874
- Title: Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives
- Title(参考訳): VLMは自律運転の準備が整っているか? 信頼性・データ・メトリクスから見た実証的研究
- Authors: Shaoyuan Xie, Lingdong Kong, Yuhao Dong, Chonghao Sima, Wenwei Zhang, Qi Alfred Chen, Ziwei Liu, Liang Pan,
- Abstract要約: 視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
- 参考スコア(独自算出の注目度): 56.528835143531694
- License:
- Abstract: Recent advancements in Vision-Language Models (VLMs) have sparked interest in their use for autonomous driving, particularly in generating interpretable driving decisions through natural language. However, the assumption that VLMs inherently provide visually grounded, reliable, and interpretable explanations for driving remains largely unexamined. To address this gap, we introduce DriveBench, a benchmark dataset designed to evaluate VLM reliability across 17 settings (clean, corrupted, and text-only inputs), encompassing 19,200 frames, 20,498 question-answer pairs, three question types, four mainstream driving tasks, and a total of 12 popular VLMs. Our findings reveal that VLMs often generate plausible responses derived from general knowledge or textual cues rather than true visual grounding, especially under degraded or missing visual inputs. This behavior, concealed by dataset imbalances and insufficient evaluation metrics, poses significant risks in safety-critical scenarios like autonomous driving. We further observe that VLMs struggle with multi-modal reasoning and display heightened sensitivity to input corruptions, leading to inconsistencies in performance. To address these challenges, we propose refined evaluation metrics that prioritize robust visual grounding and multi-modal understanding. Additionally, we highlight the potential of leveraging VLMs' awareness of corruptions to enhance their reliability, offering a roadmap for developing more trustworthy and interpretable decision-making systems in real-world autonomous driving contexts. The benchmark toolkit is publicly accessible.
- Abstract(参考訳): 近年のVLM(Vision-Language Models)の進歩は、自動運転、特に自然言語による解釈可能な運転決定への関心を喚起している。
しかしながら、VLMが本質的に視覚的に基礎があり、信頼性があり、解釈可能な運転説明を提供するという仮定はほとんど検討されていない。
このギャップに対処するために,我々は,19,200フレーム,20,498問合せペア,3つの質問タイプ,4つのメインストリーム駆動タスク,合計12のVLMを含む17の設定(クリーン,破損,テキストのみの入力)でVLMの信頼性を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介した。
以上の結果より, VLMは, 視力低下や視力低下などにより, 視力低下よりも, 一般的な知識やテキストの手がかりから得られる可視応答を生じることが示唆された。
この行動は、データセットの不均衡や評価指標の不足によって隠蔽され、自律運転のような安全クリティカルなシナリオに重大なリスクをもたらす。
さらに、VLMはマルチモーダル推論に苦慮し、入力汚職に対する感度を高め、性能の矛盾をもたらすことを観察した。
これらの課題に対処するために、堅牢な視覚的接地とマルチモーダル理解を優先する洗練された評価指標を提案する。
さらに、VLMの汚職認識を活用して信頼性を高める可能性を強調し、現実の自律運転環境でより信頼性が高く解釈可能な意思決定システムを開発するためのロードマップを提供する。
ベンチマークツールキットは一般公開されている。
関連論文リスト
- Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。
セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。
本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文 参考訳(メタデータ) (2025-01-23T11:10:02Z) - AutoTrust: Benchmarking Trustworthiness in Large Vision Language Models for Autonomous Driving [106.0319745724181]
自動運転における大規模ビジョン言語モデル(DriveVLM)のための総合的信頼度ベンチマークであるAutoTrustを紹介する。
シナリオを駆動する際の信頼性問題を調べるために,最も大きな視覚的質問応答データセットを構築した。
私たちの評価では、DriveVLMの脆弱性を信頼性の脅威に対して明らかにしました。
論文 参考訳(メタデータ) (2024-12-19T18:59:33Z) - Can LVLMs Obtain a Driver's License? A Benchmark Towards Reliable AGI for Autonomous Driving [24.485164073626674]
各国から収集された100万件以上のデータを含む大規模データセットであるIDKBを提案する。
運転免許取得のプロセスと同様に、IDKBは理論から実践への運転に必要な知識のほとんど全てを包含している。
論文 参考訳(メタデータ) (2024-09-04T17:52:43Z) - A Superalignment Framework in Autonomous Driving with Large Language Models [2.650382010271]
大規模言語モデル (LLM) と多モード大規模言語モデル (MLLM) は、自律運転において広く使われている。
その重要性にもかかわらず、自動運転におけるLLMのセキュリティの側面は未解明のままである。
本研究は,マルチエージェントLLMアプローチを利用した,自動運転車の新たなセキュリティフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-09T05:26:38Z) - Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving [38.28159034562901]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。
我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。
本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:32:33Z) - On the Road with GPT-4V(ision): Early Explorations of Visual-Language
Model on Autonomous Driving [37.617793990547625]
本報告では,最新のVLMであるGPT-4Vの徹底的な評価を行う。
我々は、シーンを駆動し、決定を下し、最終的にはドライバーの能力で行動する、モデルを理解する能力について探求する。
GPT-4Vは,既存の自律システムと比較して,シーン理解や因果推論において優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-09T12:58:37Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z) - Unsupervised Self-Driving Attention Prediction via Uncertainty Mining
and Knowledge Embedding [51.8579160500354]
本研究では、不確実性モデリングと知識統合の駆動による自動運転の注意を予測できる教師なし手法を提案する。
結果は、完全に教師された最先端のアプローチと比較して、同等またはさらに印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-17T00:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。