論文の概要: Bench2Drive-VL: Benchmarks for Closed-Loop Autonomous Driving with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.01259v1
- Date: Wed, 01 Apr 2026 11:38:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.57746
- Title: Bench2Drive-VL: Benchmarks for Closed-Loop Autonomous Driving with Vision-Language Models
- Title(参考訳): Bench2Drive-VL:視覚言語モデルを用いた閉ループ自動運転のベンチマーク
- Authors: Xiaosong Jia, Yuqian Shao, Zhenjie Yang, Qifeng Li, Zhiyuan Zhang, Junchi Yan,
- Abstract要約: 自律運転においては、閉ループ評価はオープンループ評価よりも信頼性の高い検証方法として広く認識されている。
本稿では,VLM駆動における閉ループ評価を実現するBench2Drive-VLについて述べる。
- 参考スコア(独自算出の注目度): 50.22099309218635
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rise of vision-language models (VLM), their application for autonomous driving (VLM4AD) has gained significant attention. Meanwhile, in autonomous driving, closed-loop evaluation has become widely recognized as a more reliable validation method than open-loop evaluation, as it can evaluate the performance of the model under cumulative errors and out-of-distribution inputs. However, existing VLM4AD benchmarks evaluate the model`s scene understanding ability under open-loop, i.e., via static question-answer (QA) dataset. This kind of evaluation fails to assess the VLMs performance under out-of-distribution states rarely appeared in the human collected datasets.To this end, we present Bench2Drive-VL, an extension of Bench2Drive that brings closed-loop evaluation to VLM-based driving, which introduces: (1) DriveCommenter, a closed-loop generator that automatically generates diverse, behavior-grounded question-answer pairs for all driving situations in CARLA,including severe off-route and off-road deviations previously unassessable in simulation. (2) A unified protocol and interface that allows modern VLMs to be directly plugged into the Bench2Drive closed-loop environment to compare with traditional agents. (3) A flexible reasoning and control framework, supporting multi-format visual inputs and configurable graph-based chain-of-thought execution. (4) A complete development ecosystem. Together, these components form a comprehensive closed-loop benchmark for VLM4AD. All codes and annotated datasets are open sourced.
- Abstract(参考訳): 視覚言語モデル(VLM)の台頭に伴い、自律運転(VLM4AD)への応用が注目されている。
一方、自律運転においては、累積誤差やアウト・オブ・ディストリビューション入力下でのモデルの性能を評価することができるため、クローズドループ評価はオープンループ評価よりも信頼性の高い検証方法として広く認識されている。
しかしながら、既存のVLM4ADベンチマークでは、静的質問応答(QA)データセットを通じて、オープンループ下でのモデルのシーン理解能力を評価している。
この種の評価は,人為的データセットにはほとんど現れない,分布外状態下でのVLMの性能評価に失敗するが,Bench2Drive-VLは,VLMベースの運転に閉ループ評価をもたらすBench2Driveの拡張であり,(1)CARLAにおける全運転状況に対して,多様な行動的質問応答ペアを自動生成するクローズループジェネレータであるDriveCommenterは,これまでシミュレーションでは評価できなかった厳密なオフルートとオフロードの偏差を含む。
2) 最新のVLMをBench2Driveのクローズドループ環境に直接接続して従来のエージェントと比較できる統一されたプロトコルとインターフェース。
(3)マルチフォーマット視覚入力とグラフベースのチェーン・オブ・思想実行をサポートするフレキシブルな推論・制御フレームワーク。
(4) 完全な開発エコシステム。
これらのコンポーネントは、VLM4ADの包括的なクローズドループベンチマークを構成する。
すべてのコードと注釈付きデータセットはオープンソースである。
関連論文リスト
- Collision-Aware Vision-Language Learning for End-to-End Driving with Multimodal Infraction Datasets [7.932761533792761]
高屈折率は、エンド・ツー・エンド(E2E)自動運転の主要なボトルネックである。
VLAAD(Video-Language-Augmented Anomaly Detector)を開発した。
VLAADは衝突対応のプラグインモジュールで、既存のE2E駆動モデルにシームレスに統合できる。
論文 参考訳(メタデータ) (2026-03-26T22:32:52Z) - dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning [69.36145467833498]
本稿では,拡散に基づく視覚言語モデルであるdVLM-ADを導入する。
nuScenes と WOD-E2E で評価すると、dVLM-AD はより一貫性のある推論・アクションのペアとなり、既存の駆動VLM/VLAシステムに匹敵する計画性能を達成する。
論文 参考訳(メタデータ) (2025-12-04T05:05:41Z) - nuCarla: A nuScenes-Style Bird's-Eye View Perception Dataset for CARLA Simulation [10.12033488279778]
nuCarlaは、CARLAシミュレータ内に構築された大規模なnuScenesスタイルのBEV知覚データセットである。
データとモデルをオープンベンチマークとして提供することで、nuCarlaはクローズドループE2Eの開発を大幅に加速する。
論文 参考訳(メタデータ) (2025-11-12T22:45:36Z) - CoReVLA: A Dual-Stage End-to-End Autonomous Driving Framework for Long-Tail Scenarios via Collect-and-Refine [73.74077186298523]
CoReVLAは、自動運転のための継続的学習フレームワークである。
データコレクションとビヘイビアリファインメントの2段階プロセスを通じて、ロングテールシナリオのパフォーマンスを改善する。
CoReVLAは72.18のドライビングスコア(DS)と50%の成功率(SR)を達成し、7.96DSの最先端手法と15%SRの長期的安全クリティカルシナリオで性能を向上する。
論文 参考訳(メタデータ) (2025-09-19T13:25:56Z) - Bench2ADVLM: A Closed-Loop Benchmark for Vision-language Models in Autonomous Driving [28.224158941451087]
VLM(Vision-Language Models)は、自律運転(AD)において有望なパラダイムとして登場した。
VLMベースのADシステム(ADVLM)の現在の性能評価プロトコルは、静的入力を伴うオープンループ設定に限られている。
シミュレーションと物理プラットフォーム間のリアルタイム・インタラクティブなADVLM評価のための階層型クローズドループ評価フレームワークであるBench2ADVLMを紹介した。
論文 参考訳(メタデータ) (2025-08-04T03:43:23Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。