論文の概要: AutoDriDM: An Explainable Benchmark for Decision-Making of Vision-Language Models in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2601.14702v1
- Date: Wed, 21 Jan 2026 06:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.262461
- Title: AutoDriDM: An Explainable Benchmark for Decision-Making of Vision-Language Models in Autonomous Driving
- Title(参考訳): AutoDriDM: 自律運転における視覚言語モデルの意思決定のための説明可能なベンチマーク
- Authors: Zecong Tang, Zixu Wang, Yifei Wang, Weitong Lian, Tianjian Gao, Haoran Li, Tengju Ru, Lingyi Meng, Zhejun Cui, Yichen Zhu, Qi Kang, Kaixuan Wang, Yu Zhang,
- Abstract要約: AutoDriDMは,3次元にわたる6,650の質問 – Object, Scene, Decision – を備えた,意思決定中心の,プログレッシブなベンチマークです。
我々は、自律運転における知覚と判断能力の境界を明確化するために、主流の視覚言語モデルを評価する。
モデル推論プロセスの説明可能性分析を行い、論理的推論エラーなどの重要な障害モードを特定する。
- 参考スコア(独自算出の注目度): 26.866150191410032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving is a highly challenging domain that requires reliable perception and safe decision-making in complex scenarios. Recent vision-language models (VLMs) demonstrate reasoning and generalization abilities, opening new possibilities for autonomous driving; however, existing benchmarks and metrics overemphasize perceptual competence and fail to adequately assess decision-making processes. In this work, we present AutoDriDM, a decision-centric, progressive benchmark with 6,650 questions across three dimensions - Object, Scene, and Decision. We evaluate mainstream VLMs to delineate the perception-to-decision capability boundary in autonomous driving, and our correlation analysis reveals weak alignment between perception and decision-making performance. We further conduct explainability analyses of models' reasoning processes, identifying key failure modes such as logical reasoning errors, and introduce an analyzer model to automate large-scale annotation. AutoDriDM bridges the gap between perception-centered and decision-centered evaluation, providing guidance toward safer and more reliable VLMs for real-world autonomous driving.
- Abstract(参考訳): 自律運転は、複雑なシナリオにおいて信頼性の高い認識と安全な意思決定を必要とする非常に困難な領域である。
最近の視覚言語モデル(VLM)は推論と一般化能力を示し、自動運転の新しい可能性を開くが、既存のベンチマークとメトリクスは知覚能力を強調し、意思決定プロセスの適切な評価に失敗する。
本稿では,3次元にわたる6,650の質問 – Object, Scene, Decision – を備えた,意思決定中心のプログレッシブなベンチマークであるAutoDriDMを紹介する。
自律運転における認識・意思決定能力の境界線を明らかにするために,主流のVLMを評価し,その相関解析により,認識と意思決定性能の相関が弱いことが明らかとなった。
さらに、モデルの推論プロセスの説明可能性分析を行い、論理的推論エラーなどの重要な故障モードを特定し、大規模アノテーションを自動化するアナライザモデルを導入する。
AutoDriDMは、知覚中心と意思決定中心の評価のギャップを埋め、現実の自動運転のためのより安全で信頼性の高いVLMへのガイダンスを提供する。
関連論文リスト
- VLMs Guided Interpretable Decision Making for Autonomous Driving [39.29020915361483]
我々は、高度な意思決定タスクにおいて、最先端のオープンソースビジョン言語モデル(VLM)を評価する。
本稿では,VLMの役割を直接決定ジェネレータからセマンティックエンハンサーへシフトさせるアプローチを提案する。
提案手法は,VLMを信頼性・解釈可能なADシステムに統合する上で有望な方向を提供することにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T19:57:51Z) - RAD: Retrieval-Augmented Decision-Making of Meta-Actions with Vision-Language Models in Autonomous Driving [10.984203470464687]
視覚言語モデル(VLM)は、空間認識の不十分さや幻覚といった限界に悩まされることが多い。
本稿では,自律走行シーンにおけるメタアクションを確実に生成するVLMの能力を高めるための,検索強化意思決定(RAD)フレームワークを提案する。
我々は,NuScenesデータセットから得られたデータセットに基づいてVLMを微調整し,その空間的知覚と鳥眼視画像理解能力を高める。
論文 参考訳(メタデータ) (2025-03-18T03:25:57Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - Exploring the Causality of End-to-End Autonomous Driving [57.631400236930375]
本稿では,エンドツーエンド自動運転の因果関係を探究し,分析するための包括的アプローチを提案する。
私たちの研究は、エンドツーエンドの自動運転の謎を初めて明らかにし、ブラックボックスを白い箱に変えた。
論文 参考訳(メタデータ) (2024-07-09T04:56:11Z) - Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases [102.05741859030951]
自動運転コーナーケースにおけるLVLMの自動評価のための最初のベンチマークであるCODA-LMを提案する。
テキストのみの大規模言語モデルを判断として使用すると、LVLMの判断よりも人間の好みとの整合性が向上することを示す。
CODA-VLM は GPT-4V を+21.42% 上回っても GPT-4V と相容れない性能を示した。
論文 参考訳(メタデータ) (2024-04-16T14:20:55Z) - DME-Driver: Integrating Human Decision Logic and 3D Scene Perception in
Autonomous Driving [65.04871316921327]
本稿では,自律運転システムの性能と信頼性を高める新しい自律運転システムを提案する。
DME-Driverは、意思決定者として強力な視覚言語モデル、制御信号生成者として計画指向認識モデルを利用する。
このデータセットを利用することで、論理的思考プロセスを通じて高精度な計画精度を実現する。
論文 参考訳(メタデータ) (2024-01-08T03:06:02Z) - Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving [38.28159034562901]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。
我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。
本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。