論文の概要: AD^2-Bench: A Hierarchical CoT Benchmark for MLLM in Autonomous Driving under Adverse Conditions
- arxiv url: http://arxiv.org/abs/2506.09557v1
- Date: Wed, 11 Jun 2025 09:41:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.823118
- Title: AD^2-Bench: A Hierarchical CoT Benchmark for MLLM in Autonomous Driving under Adverse Conditions
- Title(参考訳): AD^2-Bench: 逆条件下での自律走行におけるMLLMの階層的CoTベンチマーク
- Authors: Zhaoyang Wei, Chenhui Qiang, Bowen Jiang, Xumeng Han, Xuehui Yu, Zhenjun Han,
- Abstract要約: CoT(Chain-of-Thought)推論は、構造化された多段階の意思決定能力を強化する強力なアプローチとして現れている。
既存のベンチマークでは、CoTプロセスの厳格な評価の必要性がほとんど見過ごされている。
AD2-Benchは、悪天候と複雑なシーンを持つ自動運転用に特別に設計された最初のChain-of-Thoughtベンチマークである。
- 参考スコア(独自算出の注目度): 8.794611873226955
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Chain-of-Thought (CoT) reasoning has emerged as a powerful approach to enhance the structured, multi-step decision-making capabilities of Multi-Modal Large Models (MLLMs), is particularly crucial for autonomous driving with adverse weather conditions and complex traffic environments. However, existing benchmarks have largely overlooked the need for rigorous evaluation of CoT processes in these specific and challenging scenarios. To address this critical gap, we introduce AD^2-Bench, the first Chain-of-Thought benchmark specifically designed for autonomous driving with adverse weather and complex scenes. AD^2-Bench is meticulously constructed to fulfill three key criteria: comprehensive data coverage across diverse adverse environments, fine-grained annotations that support multi-step reasoning, and a dedicated evaluation framework tailored for assessing CoT performance. The core contribution of AD^2-Bench is its extensive collection of over 5.4k high-quality, manually annotated CoT instances. Each intermediate reasoning step in these annotations is treated as an atomic unit with explicit ground truth, enabling unprecedented fine-grained analysis of MLLMs' inferential processes under text-level, point-level, and region-level visual prompts. Our comprehensive evaluation of state-of-the-art MLLMs on AD^2-Bench reveals accuracy below 60%, highlighting the benchmark's difficulty and the need to advance robust, interpretable end-to-end autonomous driving systems. AD^2-Bench thus provides a standardized evaluation platform, driving research forward by improving MLLMs' reasoning in autonomous driving, making it an invaluable resource.
- Abstract(参考訳): マルチモーダル大型モデル(MLLM)の構造的・多段階決定能力を高めるための強力なアプローチとして、チェーン・オブ・ソート(CoT)推論(Chain-of-Thought)が登場した。
しかし、既存のベンチマークでは、これらの特異かつ困難なシナリオにおいて、CoTプロセスの厳密な評価の必要性がほとんど見過ごされている。
この致命的なギャップに対処するために、悪天候と複雑な場面での自動運転に特化した最初のChain-of-ThoughtベンチマークであるAD^2-Benchを紹介する。
AD^2-Benchは、さまざまな有害環境にわたる包括的なデータカバレッジ、マルチステップ推論をサポートする細かいアノテーション、CoTのパフォーマンスを評価するための専用の評価フレームワークの3つの重要な基準を満たすために、慎重に構築されている。
AD^2-Benchのコアコントリビューションは、5.4k以上の高品質な手書きのCoTインスタンスのコレクションである。
これらのアノテーションのそれぞれの中間的推論ステップは、明示的な基底真理を持つ原子単位として扱われ、テキストレベル、ポイントレベル、および領域レベルの視覚的プロンプトの下でMLLMの推論過程を前例のないきめ細かな分析を可能にする。
AD^2-Benchによる最先端MLLMの総合評価では、60%未満の精度が示され、ベンチマークの難しさと、堅牢で解釈可能なエンドツーエンドの自動運転システムの進歩の必要性が浮かび上がっている。
したがって、AD^2-Benchは標準化された評価プラットフォームを提供し、自律運転におけるMLLMの推論を改善し、研究を進める。
関連論文リスト
- STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Autonomous Driving [16.602141801221364]
STSBenchは、自律運転のための視覚言語モデル(VLM)の総合的な理解をベンチマークするためのフレームワークである。
このベンチマークでは、複数のビューにまたがる43の多様なシナリオが特徴で、その結果、971人の人間による検証された複数選択の質問が生まれている。
徹底的な評価により、複雑な環境における基本的なトラフィックダイナミクスを推論する既存のモデルの能力の欠点が明らかになる。
論文 参考訳(メタデータ) (2025-06-06T16:25:22Z) - AutoJudger: An Agent-Driven Framework for Efficient Benchmarking of MLLMs [24.403284945948272]
AutoJudgerはマルチモーダルな大規模言語モデルの効率的かつ適応的なベンチマークのためのエージェント駆動フレームワークである。
AutoJudgerは、アイテム応答理論(IRT)を用いて、質問の難易度を推定し、自律的な評価エージェントを使用して最も情報性の高いテスト質問を動的に選択する。
論文 参考訳(メタデータ) (2025-05-27T16:17:15Z) - MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation [56.87891213797931]
大規模言語モデルに対するMTR-Benchの評価について述べる。
4つのクラス、40のタスク、3600のインスタンスを含むMTR-Benchは、様々な推論機能をカバーする。
MTR-Benchは、データセットの構築とモデル評価の両方にまたがる、完全に自動化されたフレームワークを備えている。
論文 参考訳(メタデータ) (2025-05-21T17:59:12Z) - Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。
TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文 参考訳(メタデータ) (2025-04-29T13:52:47Z) - Fine-Grained Evaluation of Large Vision-Language Models in Autonomous Driving [45.35559773691414]
$textbfVLADBenchは、トラフィック知識理解、一般要素認識、トラフィックグラフ生成、ターゲット属性、意思決定と計画の5つの主要なドメインにまたがる。
このベンチマークにおける一般およびドメイン固有(DS)VLMの徹底的な評価は、ADコンテキストにおけるその強みと臨界限界の両方を明らかにしている。
実験の結果,提案したベンチマークは,ADにおけるVLMのより包括的評価に向けた重要なステップであり,より認知的に洗練され,推論可能なADシステムの開発への道を開いた。
論文 参考訳(メタデータ) (2025-03-27T13:45:47Z) - Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [65.04643267731122]
一般的なMLLMとCLIPの組み合わせは、駆動固有のシナリオを正確に表現するのに苦労することが多い。
Hints of Prompt (HoP) フレームワークを提案する。
これらのヒントはHint Fusionモジュールを通じて融合され、視覚的表現が強化され、マルチモーダル推論が強化される。
論文 参考訳(メタデータ) (2024-11-20T06:58:33Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。