論文の概要: V2X-QA: A Comprehensive Reasoning Dataset and Benchmark for Multimodal Large Language Models in Autonomous Driving Across Ego, Infrastructure, and Cooperative Views
- arxiv url: http://arxiv.org/abs/2604.02710v1
- Date: Fri, 03 Apr 2026 04:07:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.317295
- Title: V2X-QA: A Comprehensive Reasoning Dataset and Benchmark for Multimodal Large Language Models in Autonomous Driving Across Ego, Infrastructure, and Cooperative Views
- Title(参考訳): V2X-QA:マルチモーダル大規模言語モデルのための総合推論データセットとベンチマーク
- Authors: Junwei You, Pei Li, Zhuoyu Jiang, Weizhe Tang, Zilin Huang, Rui Gan, Jiaxi Liu, Yan Zhao, Sikai Chen, Bin Ran,
- Abstract要約: V2X-QAは、車側、インフラ側、協調的な視点でMLLMを評価するための実世界のデータセットとベンチマークである。
その結果、視点アクセシビリティは性能に大きく影響し、インフラ側の推論は意味のあるマクロなトラフィック理解を支援することがわかった。
V2X-MoEは、明示的なビュールーティングと視点固有のLoRAエキスパートを備えたベンチマークアラインベースラインである。
- 参考スコア(独自算出の注目度): 22.24590004859344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have shown strong potential for autonomous driving, yet existing benchmarks remain largely ego-centric and therefore cannot systematically assess model performance in infrastructure-centric and cooperative driving conditions. In this work, we introduce V2X-QA, a real-world dataset and benchmark for evaluating MLLMs across vehicle-side, infrastructure-side, and cooperative viewpoints. V2X-QA is built around a view-decoupled evaluation protocol that enables controlled comparison under vehicle-only, infrastructure-only, and cooperative driving conditions within a unified multiple-choice question answering (MCQA) framework. The benchmark is organized into a twelve-task taxonomy spanning perception, prediction, and reasoning and planning, and is constructed through expert-verified MCQA annotation to enable fine-grained diagnosis of viewpoint-dependent capabilities. Benchmark results across ten representative state-of-the-art proprietary and open-source models show that viewpoint accessibility substantially affects performance, and infrastructure-side reasoning supports meaningful macroscopic traffic understanding. Results also indicate that cooperative reasoning remains challenging since it requires cross-view alignment and evidence integration rather than simply additional visual input. To address these challenges, we introduce V2X-MoE, a benchmark-aligned baseline with explicit view routing and viewpoint-specific LoRA experts. The strong performance of V2X-MoE further suggests that explicit viewpoint specialization is a promising direction for multi-view reasoning in autonomous driving. Overall, V2X-QA provides a foundation for studying multi-perspective reasoning, reliability, and cooperative physical intelligence in connected autonomous driving. The dataset and V2X-MoE resources are publicly available at: https://github.com/junwei0001/V2X-QA.
- Abstract(参考訳): MLLM(Multimodal large language model)は、自律運転の強い可能性を示しているが、既存のベンチマークの大部分はエゴ中心であり、インフラ中心および協調運転条件におけるモデル性能を体系的に評価することはできない。
本稿では,車側,インフラ側,協調的な視点でMLLMを評価するための実世界のデータセットとベンチマークであるV2X-QAを紹介する。
V2X-QAは、車両のみ、インフラのみ、および協調運転条件下で制御された比較を可能にするビュー分離評価プロトコルを、MCQA(Multiple-choice Question answering)フレームワークで構築する。
このベンチマークは、知覚、予測、推論、計画にまたがる12タスクの分類に分類され、専門家が検証したMCQAアノテーションによって構築され、視点依存能力のきめ細かい診断を可能にする。
10の最先端のプロプライエタリおよびオープンソースモデルのベンチマーク結果から、視点アクセシビリティはパフォーマンスに大きく影響し、インフラストラクチャ側の推論は意味のあるマクロなトラフィック理解をサポートする。
結果は、単に視覚的な入力を追加するのではなく、クロスビューアライメントとエビデンス統合を必要とするため、協調的推論は依然として困難であることを示している。
これらの課題に対処するために、明示的なビュールーティングと視点固有のLoRAエキスパートを備えたベンチマークアラインベースラインであるV2X-MoEを紹介する。
V2X-MoEの強い性能は、明示的な視点の特殊化が自律運転における多視点推論の有望な方向であることを示唆している。
全体として、V2X-QAは、接続された自律運転における多視点推論、信頼性、協調的な物理的知性の研究の基礎を提供する。
データセットとV2X-MoEリソースは、https://github.com/junwei0001/V2X-QAで公開されている。
関連論文リスト
- Bench2Drive-VL: Benchmarks for Closed-Loop Autonomous Driving with Vision-Language Models [50.22099309218635]
自律運転においては、閉ループ評価はオープンループ評価よりも信頼性の高い検証方法として広く認識されている。
本稿では,VLM駆動における閉ループ評価を実現するBench2Drive-VLについて述べる。
論文 参考訳(メタデータ) (2026-04-01T11:38:46Z) - MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs [61.70050081221131]
MVU-EvalはMLLMのマルチビデオ理解を評価するための最初の包括的なベンチマークである。
私たちのMVU-Evalは、主に8つのコア能力を評価し、4,959本のビデオにまたがる1,824本の厳密にキュレートされた質問応答ペアを評価します。
これらの機能は、自律システムにおけるマルチセンサー合成や、クロスアングルスポーツ分析のような現実世界のアプリケーションと厳格に一致している。
論文 参考訳(メタデータ) (2025-11-10T16:02:33Z) - NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving [10.41584658117874]
自律運転における視覚言語モデル(VLM)の空間的理解と推論能力を評価するために設計された,第1の大規模地下構造に基づく質問応答(QA)ベンチマークであるNuScenes-SpatialQAを提案する。
NuScenesデータセットに基づいて構築されたこのベンチマークは、自動化された3Dシーングラフ生成パイプラインとQA生成パイプラインによって構築される。
このベンチマークを用いて、汎用モデルと空間拡張モデルの両方を含む多様なVLMに関する広範な実験を行い、自律運転における空間能力を総合的に評価した。
論文 参考訳(メタデータ) (2025-04-04T04:43:10Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving [38.28159034562901]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。
我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。
本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。