論文の概要: Bench2ADVLM: A Closed-Loop Benchmark for Vision-language Models in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2508.02028v1
- Date: Mon, 04 Aug 2025 03:43:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.161261
- Title: Bench2ADVLM: A Closed-Loop Benchmark for Vision-language Models in Autonomous Driving
- Title(参考訳): Bench2ADVLM: 自動運転における視覚言語モデルのためのクローズドループベンチマーク
- Authors: Tianyuan Zhang, Ting Jin, Lu Wang, Jiangfan Liu, Siyuan Liang, Mingchuan Zhang, Aishan Liu, Xianglong Liu,
- Abstract要約: VLM(Vision-Language Models)は、自律運転(AD)において有望なパラダイムとして登場した。
VLMベースのADシステム(ADVLM)の現在の性能評価プロトコルは、静的入力を伴うオープンループ設定に限られている。
シミュレーションと物理プラットフォーム間のリアルタイム・インタラクティブなADVLM評価のための階層型クローズドループ評価フレームワークであるBench2ADVLMを紹介した。
- 参考スコア(独自算出の注目度): 28.224158941451087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have recently emerged as a promising paradigm in autonomous driving (AD). However, current performance evaluation protocols for VLM-based AD systems (ADVLMs) are predominantly confined to open-loop settings with static inputs, neglecting the more realistic and informative closed-loop setting that captures interactive behavior, feedback resilience, and real-world safety. To address this, we introduce Bench2ADVLM, a unified hierarchical closed-loop evaluation framework for real-time, interactive assessment of ADVLMs across both simulation and physical platforms. Inspired by dual-process theories of cognition, we first adapt diverse ADVLMs to simulation environments via a dual-system adaptation architecture. In this design, heterogeneous high-level driving commands generated by target ADVLMs (fast system) are interpreted by a general-purpose VLM (slow system) into standardized mid-level control actions suitable for execution in simulation. To bridge the gap between simulation and reality, we design a physical control abstraction layer that translates these mid-level actions into low-level actuation signals, enabling, for the first time, closed-loop testing of ADVLMs on physical vehicles. To enable more comprehensive evaluation, Bench2ADVLM introduces a self-reflective scenario generation module that automatically explores model behavior and uncovers potential failure modes for safety-critical scenario generation. Overall, Bench2ADVLM establishes a hierarchical evaluation pipeline that seamlessly integrates high-level abstract reasoning, mid-level simulation actions, and low-level real-world execution. Experiments on diverse scenarios across multiple state-of-the-art ADVLMs and physical platforms validate the diagnostic strength of our framework, revealing that existing ADVLMs still exhibit limited performance under closed-loop conditions.
- Abstract(参考訳): VLM(Vision-Language Models)は、最近、自動運転(AD)における有望なパラダイムとして登場した。
しかしながら、VLMベースのADシステム(ADVLM)の現在の性能評価プロトコルは、静的な入力を伴うオープンループ設定に限られており、インタラクティブな振る舞い、フィードバックのレジリエンス、現実世界の安全性をキャプチャするより現実的で情報的なクローズループ設定を無視している。
そこで本研究では,シミュレーションと物理プラットフォーム間のリアルタイム・インタラクティブなADVLM評価のための階層型クローズドループ評価フレームワークであるBench2ADVLMを紹介する。
認知の二重プロセス理論に触発されて、我々はまず多種多様なADVLMを二重システム適応アーキテクチャを用いてシミュレーション環境に適応させる。
この設計では、ターゲットADVLM(高速システム)が生成する異種高レベル駆動コマンドを汎用VLM(スローシステム)で解釈し、シミュレーションでの実行に適した標準化中レベル制御動作に変換する。
シミュレーションと現実のギャップを埋めるため,これらの中間レベル動作を低レベル動作信号に変換する物理制御抽象化層を設計し,実車上でのADVLMの閉ループ試験を可能にした。
より包括的な評価を可能にするため、Bench2ADVLMでは、モデル動作を自動的に探索し、安全クリティカルシナリオ生成のための潜在的な障害モードを明らかにする、自己反射シナリオ生成モジュールを導入している。
全体として、Bench2ADVLMは、高レベルの抽象的推論、中レベルのシミュレーションアクション、低レベルの実世界の実行をシームレスに統合する階層的な評価パイプラインを確立する。
複数の最先端ADVLMおよび物理プラットフォームにまたがる様々なシナリオの実験により、我々のフレームワークの診断強度が検証され、既存のADVLMはクローズドループ条件下での限られた性能を示すことが明らかとなった。
関連論文リスト
- VLMPlanner: Integrating Visual Language Models with Motion Planning [18.633637485218802]
VLMPlannerは、学習ベースのリアルタイムプランナと生画像の推論が可能な視覚言語モデル(VLM)を組み合わせたハイブリッドフレームワークである。
我々は,VLMが人間の運転動作を模倣できるコンテキスト適応推論ゲート機構を開発した。
論文 参考訳(メタデータ) (2025-07-27T16:15:21Z) - Autonomous Control Leveraging LLMs: An Agentic Framework for Next-Generation Industrial Automation [0.0]
本稿では,大規模言語モデル(LLM)を個別のフォールトリカバリ計画と継続的プロセス制御の両方に活用する統合エージェントフレームワークを提案する。
その結果、構造化されたフィードバックとモジュラーエージェントにより、LLMは高レベルな記号計画と低レベルな連続制御を統一できることを示した。
論文 参考訳(メタデータ) (2025-07-03T11:20:22Z) - EMAC+: Embodied Multimodal Agent for Collaborative Planning with VLM+LLM [8.3321872381107]
我々は,LLMとVLMを協調的に統合するEmbodied Multimodal AgentであるEMAC+を紹介する。
既存の方法とは異なり、EMAC+は低レベルの視覚制御タスクを実行するVLMからのリアルタイムフィードバックを使用して、高レベルのテキストプランを動的に洗練する。
EMAC+は、ノイズの多い観察と効率的な学習に対して優れたタスクパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-26T12:34:16Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [94.84458417662404]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。
自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。
LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-04-15T17:14:06Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - Perceptual Motor Learning with Active Inference Framework for Robust Lateral Control [0.5437298646956507]
本稿では、高自動走行車(HAV)における横方向制御を強化するために、アクティブ推論(AIF)と統合された新しい知覚運動学習フレームワークを提案する。
PMLは知覚と行動のシームレスな統合を強調し、動的環境における効率的な意思決定を可能にする。
弊社のアプローチは、ディープラーニングをアクティブな推論原則と統合し、HAVが最小限のデータで車線維持を行い、異なる環境にまたがる広範な再訓練を行なわないようにする。
論文 参考訳(メタデータ) (2025-03-03T15:49:18Z) - AD-H: Autonomous Driving with Hierarchical Agents [64.49185157446297]
我々は,ハイレベル命令と低レベル制御信号を中間言語駆動の命令に接続することを提案する。
我々は、AD-Hという階層型マルチエージェント駆動システムを用いて、このアイデアを実装した。
論文 参考訳(メタデータ) (2024-06-05T17:25:46Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Variational Latent Branching Model for Off-Policy Evaluation [23.073461349048834]
マルコフ決定過程(MDP)の遷移関数を学習するための変動潜在分岐モデル(VLBM)を提案する。
ランダムなモデル重みに対するモデルの堅牢性を改善するために分岐アーキテクチャを導入する。
VLBM は既存の OPE 手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2023-01-28T02:20:03Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。