Fugu-MT 論文翻訳(概要): AutoDrive-QA- Automated Generation of Multiple-Choice Questions for Autonomous Driving Datasets Using Large Vision-Language Models

論文の概要: AutoDrive-QA- Automated Generation of Multiple-Choice Questions for Autonomous Driving Datasets Using Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2503.15778v1
Date: Thu, 20 Mar 2025 01:32:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-21 15:30:52.219306
Title: AutoDrive-QA- Automated Generation of Multiple-Choice Questions for Autonomous Driving Datasets Using Large Vision-Language Models
Title（参考訳）: オートドライブQA-大規模視線モデルを用いた自律運転データセットのための複数項目質問の自動生成
Authors: Boshra Khalili, Andrew W. Smyth,
Abstract要約: 既存の駆動型QAデータセットを構造化多重質問(MCQ)フォーマットに変換する自動パイプラインであるAutoDrive-QAを紹介する。このベンチマークは、認識、予測、計画タスクを体系的に評価し、標準化された客観的評価フレームワークを提供する。我々は、このベンチマークを3つの公開データセットでテストし、目に見えないデータセットでゼロショット実験を行う。
参考スコア（独自算出の注目度）: 1.3812010983144802
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In autonomous driving, open-ended question answering often suffers from unreliable evaluations because freeform responses require either complex metrics or subjective human judgment. To address this challenge, we introduce AutoDrive-QA, an automatic pipeline that converts existing driving QA datasets (including DriveLM, NuScenes-QA, and LingoQA) into a structured multiple-choice question (MCQ) format. This benchmark systematically assesses perception, prediction, and planning tasks, providing a standardized and objective evaluation framework. AutoDrive-QA employs an automated pipeline that leverages large language models (LLMs) to generate high-quality, contextually relevant distractors based on domain-specific error patterns commonly found in autonomous driving scenarios. To evaluate both general capabilities and generalization performance, we test the benchmark on three public datasets and conduct zero-shot experiments on an unseen dataset. The zero-shot evaluations reveal that GPT-4V leads with 69.57% accuracy -- achieving 74.94% in Perception, 65.33% in Prediction, and 68.45% in Planning -- demonstrating that while all models excel in Perception, they struggle in Prediction. Consequently, AutoDrive-QA establishes a rigorous, unbiased standard for integrating and evaluating different vision-language models across various autonomous driving datasets, thereby improving generalization in this field. We release all the codes in the AutoDrive-QA GitHub Repository.
Abstract（参考訳）: 自律運転では、自由形応答は複雑なメトリクスか主観的な人間の判断を必要とするため、オープンエンドの質問応答は信頼できない評価に悩まされることが多い。この課題に対処するために、既存の駆動QAデータセット(DriveLM、NuScenes-QA、LingoQAを含む)を構造化多重選択質問(MCQ)フォーマットに変換する自動パイプラインであるAutoDrive-QAを導入する。このベンチマークは、認識、予測、計画タスクを体系的に評価し、標準化された客観的評価フレームワークを提供する。 AutoDrive-QAは、大規模言語モデル(LLM)を活用する自動化パイプラインを使用して、自律運転シナリオで一般的に見られるドメイン固有のエラーパターンに基づいて、高品質でコンテキストに関連のあるイントラクタを生成する。汎用性と一般化性能の両方を評価するため、3つの公開データセット上でベンチマークを検証し、目に見えないデータセット上でゼロショット実験を行う。ゼロショット評価の結果、GPT-4Vの精度は69.57%で、知覚では74.94%、予測では65.33%、計画では68.45%に達した。その結果、AutoDrive-QAは様々な自律運転データセット間で異なるビジョン言語モデルを統合および評価するための厳格で偏りのない標準を確立し、この分野での一般化を改善する。コードはすべてAutoDrive-QA GitHub Repositoryでリリースしています。

関連論文リスト

AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving [28.378854340190973]
VLM(Vision-Language Models)は、自律走行を約束するが、幻覚、非効率な推論、限られた実世界の検証は、正確な知覚と堅牢なステップバイステップ推論を妨げる。我々は、Chain-of-Thought(CoT)推論と、自律運転タスクのための動的エージェントスタイルのツール呼び出しを統合する、先駆的な統合フレームワークであるAgentThinkを紹介する。
論文参考訳（メタデータ） (2025-05-21T09:27:43Z)
DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文参考訳（メタデータ） (2025-03-13T17:59:01Z)
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation [69.81654421834989]
オープンエンドの質問を自動的にマルチ選択フォーマットに変換するエージェントフレームワークであるAutoを紹介します。 Autoを用いて、既存の20のVQAデータセットを統一された多重選択フォーマットに変換することで生成されたベンチマークであるVMCBenchを構築した。我々はVMCBench上で33の最先端ビジョン言語モデルを評価し、スケーラブルで一貫した再現可能なVLM評価のための新しい標準を設定した。
論文参考訳（メタデータ） (2025-01-06T18:57:31Z)
DriveMM: All-in-One Large Multimodal Model for Autonomous Driving [63.882827922267666]
DriveMMは、画像やマルチビュービデオなどの多様なデータ入力を処理するために設計された、大規模なマルチモーダルモデルである。我々は、6つの公開ベンチマークで評価を行い、未確認のデータセットでゼロショット転送を行い、DriveMMはすべてのタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-10T17:27:32Z)
AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文参考訳（メタデータ） (2024-03-26T04:27:56Z)
AutoAct: Automatic Agent Learning from Scratch for QA via Self-Planning [54.47116888545878]
AutoActはQAのための自動エージェント学習フレームワークである。大規模アノテートデータやクローズドソースモデルからの合成計画軌道は依存していない。
論文参考訳（メタデータ） (2024-01-10T16:57:24Z)
DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文参考訳（メタデータ） (2023-12-21T18:59:12Z)
NuScenes-MQA: Integrated Evaluation of Captions and QA for Autonomous Driving Datasets using Markup Annotations [0.6827423171182154]
VQA(Visual Question Answering)は、自動運転において最も重要なタスクの1つである。本稿では,QAをマークアップ内に囲む新しいデータセットアノテーション手法を提案する。このデータセットは視覚言語モデル、特に自律運転タスクの開発を促進する。
論文参考訳（メタデータ） (2023-12-11T12:58:54Z)
Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving [38.28159034562901]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文参考訳（メタデータ） (2023-12-06T18:32:33Z)
NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文参考訳（メタデータ） (2023-05-24T07:40:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。