論文の概要: AutoDrive-QA: A Multiple-Choice Benchmark for Vision-Language Evaluation in Urban Autonomous Driving
- arxiv url: http://arxiv.org/abs/2503.15778v2
- Date: Sat, 04 Oct 2025 21:23:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:09.549582
- Title: AutoDrive-QA: A Multiple-Choice Benchmark for Vision-Language Evaluation in Urban Autonomous Driving
- Title(参考訳): AutoDrive-QA: 都市自動運転におけるビジョンランゲージ評価のためのマルチコースベンチマーク
- Authors: Boshra Khalili, Andrew W. Smyth,
- Abstract要約: オープンエンド運転QAを構造化多重選択質問に体系的に変換する最初のベンチマークであるAutoDrive-QAを紹介する。
微調整LLaVA-1.5-7Bはタスク間で約6ポイントの精度向上を実現し、GPT-4Vは最大69.8%の精度で最強のゼロショット性能を実現し、Qwen2-VLモデルも競争力を発揮した。
- 参考スコア(独自算出の注目度): 0.7734726150561086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating vision-language models (VLMs) in urban driving contexts remains challenging, as existing benchmarks rely on open-ended responses that are ambiguous, annotation-intensive, and inconsistent to score. This lack of standardized evaluation slows progress toward safe and reliable AI for urban mobility. We introduce AutoDrive-QA, the first benchmark that systematically converts open-ended driving QA datasets (DriveLM, NuScenes-QA, LingoQA) into structured multiple-choice questions (MCQs) with distractors grounded in five realistic error categories: Driving Domain Misconceptions, Logical Inconsistencies, Misinterpreted Sensor Inputs, Computational Oversights, and Question Ambiguity. This framework enables reproducible and interpretable evaluation of VLMs across perception, prediction, and planning tasks in complex urban scenes. Experiments show that fine-tuning LLaVA-1.5-7B improves accuracy by about six percentage points across tasks, GPT-4V achieves the strongest zero-shot performance with up to 69.8% accuracy, and Qwen2-VL models also perform competitively, particularly in multi-view settings. Moreover, traditional metrics such as BLEU and CIDEr fail to distinguish strong from weak models. By providing an objective, domain-grounded evaluation protocol, AutoDrive-QA contributes to more transparent benchmarking of urban AI systems, supporting the development of safer and more trustworthy autonomous driving technologies for smart cities.
- Abstract(参考訳): 都市運転における視覚言語モデル(VLM)の評価はいまだに困難であり、既存のベンチマークは曖昧で、アノテーションに強く、得点に矛盾するオープンな応答に依存している。
この標準化された評価の欠如は、都市移動のための安全で信頼性の高いAIへの進歩を遅らせる。
オープンエンド駆動QAデータセット(DriveLM, NuScenes-QA, LingoQA)を構造化多重選択質問(MCQ)に体系的に変換する最初のベンチマークであるAutoDrive-QAを紹介する。
この枠組みは、複雑な都市景観における認識、予測、計画タスクにおけるVLMの再現可能かつ解釈可能な評価を可能にする。
実験の結果、細調整のLLaVA-1.5-7Bはタスク間で約6ポイント精度を向上し、GPT-4Vは最大69.8%の精度で最強のゼロショット性能を達成し、Qwen2-VLモデルは特にマルチビュー設定で競争力を発揮した。
さらに、BLEUやCIDErのような伝統的なメトリクスは、弱いモデルと強いものを区別することができない。
ドメインベースで客観的な評価プロトコルを提供することで、AutoDrive-QAは、都市AIシステムのより透過的なベンチマークに寄与し、スマートシティのためのより安全で信頼性の高い自動運転技術の開発をサポートする。
関連論文リスト
- AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving [28.378854340190973]
VLM(Vision-Language Models)は、自律走行を約束するが、幻覚、非効率な推論、限られた実世界の検証は、正確な知覚と堅牢なステップバイステップ推論を妨げる。
我々は、Chain-of-Thought(CoT)推論と、自律運転タスクのための動的エージェントスタイルのツール呼び出しを統合する、先駆的な統合フレームワークであるAgentThinkを紹介する。
論文 参考訳(メタデータ) (2025-05-21T09:27:43Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation [69.81654421834989]
オープンエンドの質問を自動的にマルチ選択フォーマットに変換するエージェントフレームワークであるAutoを紹介します。
Autoを用いて、既存の20のVQAデータセットを統一された多重選択フォーマットに変換することで生成されたベンチマークであるVMCBenchを構築した。
我々はVMCBench上で33の最先端ビジョン言語モデルを評価し、スケーラブルで一貫した再現可能なVLM評価のための新しい標準を設定した。
論文 参考訳(メタデータ) (2025-01-06T18:57:31Z) - DriveMM: All-in-One Large Multimodal Model for Autonomous Driving [63.882827922267666]
DriveMMは、画像やマルチビュービデオなどの多様なデータ入力を処理するために設計された、大規模なマルチモーダルモデルである。
我々は、6つの公開ベンチマークで評価を行い、未確認のデータセットでゼロショット転送を行い、DriveMMはすべてのタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-10T17:27:32Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - AutoAct: Automatic Agent Learning from Scratch for QA via Self-Planning [54.47116888545878]
AutoActはQAのための自動エージェント学習フレームワークである。
大規模アノテートデータやクローズドソースモデルからの合成計画軌道は依存していない。
論文 参考訳(メタデータ) (2024-01-10T16:57:24Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - NuScenes-MQA: Integrated Evaluation of Captions and QA for Autonomous
Driving Datasets using Markup Annotations [0.6827423171182154]
VQA(Visual Question Answering)は、自動運転において最も重要なタスクの1つである。
本稿では,QAをマークアップ内に囲む新しいデータセットアノテーション手法を提案する。
このデータセットは視覚言語モデル、特に自律運転タスクの開発を促進する。
論文 参考訳(メタデータ) (2023-12-11T12:58:54Z) - Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving [38.28159034562901]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。
我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。
本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:32:33Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。