論文の概要: AutoDrive-QA- Automated Generation of Multiple-Choice Questions for Autonomous Driving Datasets Using Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.15778v1
- Date: Thu, 20 Mar 2025 01:32:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:33:32.078983
- Title: AutoDrive-QA- Automated Generation of Multiple-Choice Questions for Autonomous Driving Datasets Using Large Vision-Language Models
- Title(参考訳): オートドライブQA-大規模視線モデルを用いた自律運転データセットのための複数項目質問の自動生成
- Authors: Boshra Khalili, Andrew W. Smyth,
- Abstract要約: 既存の駆動型QAデータセットを構造化多重質問(MCQ)フォーマットに変換する自動パイプラインであるAutoDrive-QAを紹介する。
このベンチマークは、認識、予測、計画タスクを体系的に評価し、標準化された客観的評価フレームワークを提供する。
我々は、このベンチマークを3つの公開データセットでテストし、目に見えないデータセットでゼロショット実験を行う。
- 参考スコア(独自算出の注目度): 1.3812010983144802
- License:
- Abstract: In autonomous driving, open-ended question answering often suffers from unreliable evaluations because freeform responses require either complex metrics or subjective human judgment. To address this challenge, we introduce AutoDrive-QA, an automatic pipeline that converts existing driving QA datasets (including DriveLM, NuScenes-QA, and LingoQA) into a structured multiple-choice question (MCQ) format. This benchmark systematically assesses perception, prediction, and planning tasks, providing a standardized and objective evaluation framework. AutoDrive-QA employs an automated pipeline that leverages large language models (LLMs) to generate high-quality, contextually relevant distractors based on domain-specific error patterns commonly found in autonomous driving scenarios. To evaluate both general capabilities and generalization performance, we test the benchmark on three public datasets and conduct zero-shot experiments on an unseen dataset. The zero-shot evaluations reveal that GPT-4V leads with 69.57% accuracy -- achieving 74.94% in Perception, 65.33% in Prediction, and 68.45% in Planning -- demonstrating that while all models excel in Perception, they struggle in Prediction. Consequently, AutoDrive-QA establishes a rigorous, unbiased standard for integrating and evaluating different vision-language models across various autonomous driving datasets, thereby improving generalization in this field. We release all the codes in the AutoDrive-QA GitHub Repository.
- Abstract(参考訳): 自律運転では、自由形応答は複雑なメトリクスか主観的な人間の判断を必要とするため、オープンエンドの質問応答は信頼できない評価に悩まされることが多い。
この課題に対処するために、既存の駆動QAデータセット(DriveLM、NuScenes-QA、LingoQAを含む)を構造化多重選択質問(MCQ)フォーマットに変換する自動パイプラインであるAutoDrive-QAを導入する。
このベンチマークは、認識、予測、計画タスクを体系的に評価し、標準化された客観的評価フレームワークを提供する。
AutoDrive-QAは、大規模言語モデル(LLM)を活用する自動化パイプラインを使用して、自律運転シナリオで一般的に見られるドメイン固有のエラーパターンに基づいて、高品質でコンテキストに関連のあるイントラクタを生成する。
汎用性と一般化性能の両方を評価するため、3つの公開データセット上でベンチマークを検証し、目に見えないデータセット上でゼロショット実験を行う。
ゼロショット評価の結果、GPT-4Vの精度は69.57%で、知覚では74.94%、予測では65.33%、計画では68.45%に達した。
その結果、AutoDrive-QAは様々な自律運転データセット間で異なるビジョン言語モデルを統合および評価するための厳格で偏りのない標準を確立し、この分野での一般化を改善する。
コードはすべてAutoDrive-QA GitHub Repositoryでリリースしています。
関連論文リスト
- Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation [69.81654421834989]
オープンエンドの質問を自動的にマルチ選択フォーマットに変換するエージェントフレームワークであるAutoを紹介します。
Autoを用いて、既存の20のVQAデータセットを統一された多重選択フォーマットに変換することで生成されたベンチマークであるVMCBenchを構築した。
我々はVMCBench上で33の最先端ビジョン言語モデルを評価し、スケーラブルで一貫した再現可能なVLM評価のための新しい標準を設定した。
論文 参考訳(メタデータ) (2025-01-06T18:57:31Z) - DriveMM: All-in-One Large Multimodal Model for Autonomous Driving [63.882827922267666]
DriveMMは、画像やマルチビュービデオなどの多様なデータ入力を処理するために設計された、大規模なマルチモーダルモデルである。
我々は、6つの公開ベンチマークで評価を行い、未確認のデータセットでゼロショット転送を行い、DriveMMはすべてのタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-10T17:27:32Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - AutoAct: Automatic Agent Learning from Scratch for QA via Self-Planning [54.47116888545878]
AutoActはQAのための自動エージェント学習フレームワークである。
大規模アノテートデータやクローズドソースモデルからの合成計画軌道は依存していない。
論文 参考訳(メタデータ) (2024-01-10T16:57:24Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - NuScenes-MQA: Integrated Evaluation of Captions and QA for Autonomous
Driving Datasets using Markup Annotations [0.6827423171182154]
VQA(Visual Question Answering)は、自動運転において最も重要なタスクの1つである。
本稿では,QAをマークアップ内に囲む新しいデータセットアノテーション手法を提案する。
このデータセットは視覚言語モデル、特に自律運転タスクの開発を促進する。
論文 参考訳(メタデータ) (2023-12-11T12:58:54Z) - Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving [38.28159034562901]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。
我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。
本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:32:33Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking [30.155625852894797]
研究者や主催者を対象としたブラウザベースのベンチマークツールを提案する。
私たちのツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ちます。
対話的フィルタリングは問題のある振る舞いの発見を促進する。
論文 参考訳(メタデータ) (2021-10-11T11:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。