論文の概要: DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models
- arxiv url: http://arxiv.org/abs/2506.05667v1
- Date: Fri, 06 Jun 2025 01:30:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.277554
- Title: DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models
- Title(参考訳): DriveAction: VLAモデルにおける人間ライクな運転決定のベンチマーク
- Authors: Yuhan Hao, Zhengning Li, Lei Sun, Weilong Wang, Naixin Yi, Sheng Song, Caihong Qin, Mofan Zhou, Yifei Zhan, Peng Jia, Xianpeng Lang,
- Abstract要約: VLA(Vision-Language-Action)モデルには高度な自律運転があるが、既存のベンチマークにはシナリオの多様性、信頼性の高いアクションレベルのアノテーション、人間の好みに沿った評価プロトコルが欠けている。
我々は,2,610の駆動シナリオから生成された16,185のQAペアからなる,VLAモデル用に特別に設計された最初のアクション駆動ベンチマークであるDriveActionを紹介する。
- 参考スコア(独自算出の注目度): 3.8924960603916894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have advanced autonomous driving, but existing benchmarks still lack scenario diversity, reliable action-level annotation, and evaluation protocols aligned with human preferences. To address these limitations, we introduce DriveAction, the first action-driven benchmark specifically designed for VLA models, comprising 16,185 QA pairs generated from 2,610 driving scenarios. DriveAction leverages real-world driving data proactively collected by users of production-level autonomous vehicles to ensure broad and representative scenario coverage, offers high-level discrete action labels collected directly from users' actual driving operations, and implements an action-rooted tree-structured evaluation framework that explicitly links vision, language, and action tasks, supporting both comprehensive and task-specific assessment. Our experiments demonstrate that state-of-the-art vision-language models (VLMs) require both vision and language guidance for accurate action prediction: on average, accuracy drops by 3.3% without vision input, by 4.1% without language input, and by 8.0% without either. Our evaluation supports precise identification of model bottlenecks with robust and consistent results, thus providing new insights and a rigorous foundation for advancing human-like decisions in autonomous driving.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルには高度な自律運転があるが、既存のベンチマークにはシナリオの多様性、信頼性の高いアクションレベルのアノテーション、人間の好みに沿った評価プロトコルが欠けている。
これらの制約に対処するために,2,610の駆動シナリオから生成された16,185のQAペアからなる,VLAモデル用に特別に設計された最初のアクション駆動型ベンチマークであるDriveActionを紹介する。
DriveActionは、プロダクションレベルの自動運転車のユーザが積極的に収集した実世界の運転データを活用して、広範囲で代表的なシナリオのカバレッジを確保し、ユーザの実際の運転操作から直接収集された高レベルの個別アクションラベルを提供し、視覚、言語、アクションタスクを明確にリンクするアクションルート木構造評価フレームワークを実装し、包括的およびタスク固有の評価の両方をサポートする。
我々の実験では、最先端の視覚言語モデル(VLM)は、視覚と言語の両方のガイダンスを必要としており、平均すると、視覚入力なしでは精度が3.3%低下し、言語入力なしでは4.1%低下し、どちらの場合も8.0%低下する。
我々の評価は、堅牢で一貫した結果を伴うモデルボトルネックの正確な同定をサポートし、自動運転における人間的な決定を前進させるための、厳密な基盤と新たな洞察を提供する。
関連論文リスト
- OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2025-04-06T03:54:21Z) - RAD: Retrieval-Augmented Decision-Making of Meta-Actions with Vision-Language Models in Autonomous Driving [10.984203470464687]
視覚言語モデル(VLM)は、空間認識の不十分さや幻覚といった限界に悩まされることが多い。
本稿では,自律走行シーンにおけるメタアクションを確実に生成するVLMの能力を高めるための,検索強化意思決定(RAD)フレームワークを提案する。
我々は,NuScenesデータセットから得られたデータセットに基づいてVLMを微調整し,その空間的知覚と鳥眼視画像理解能力を高める。
論文 参考訳(メタデータ) (2025-03-18T03:25:57Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - Minds on the Move: Decoding Trajectory Prediction in Autonomous Driving with Cognitive Insights [18.92479778025183]
運転シナリオでは、車両の軌道は人間の運転者の意思決定プロセスによって決定される。
従来のモデルは人間のドライバーの真の意図を捉えることができず、長期の軌道予測において最適以下の性能をもたらす。
ドライバーの意思決定メカニズムを解釈するために,認知的概念である知覚安全を取り入れた認知情報変換器(CITF)を導入する。
論文 参考訳(メタデータ) (2025-02-27T13:43:17Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z) - Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases [102.05741859030951]
自動運転コーナーケースにおけるLVLMの自動評価のための最初のベンチマークであるCODA-LMを提案する。
テキストのみの大規模言語モデルを判断として使用すると、LVLMの判断よりも人間の好みとの整合性が向上することを示す。
CODA-VLM は GPT-4V を+21.42% 上回っても GPT-4V と相容れない性能を示した。
論文 参考訳(メタデータ) (2024-04-16T14:20:55Z) - Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving [38.28159034562901]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。
我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。
本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:32:33Z) - DeepAccident: A Motion and Accident Prediction Benchmark for V2X
Autonomous Driving [76.29141888408265]
本研究では,現実の運転において頻繁に発生する多様な事故シナリオを含む大規模データセットを提案する。
提案したDeepAccidentデータセットには57Kの注釈付きフレームと285Kの注釈付きサンプルが含まれており、これは大規模なnuScenesデータセットの約7倍である。
論文 参考訳(メタデータ) (2023-04-03T17:37:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。