論文の概要: VLMs Guided Interpretable Decision Making for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2511.13881v1
- Date: Mon, 17 Nov 2025 19:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.773971
- Title: VLMs Guided Interpretable Decision Making for Autonomous Driving
- Title(参考訳): 自律運転のための解釈可能な意思決定のためのVLMガイド
- Authors: Xin Hu, Taotao Jing, Renran Tian, Zhengming Ding,
- Abstract要約: 我々は、高度な意思決定タスクにおいて、最先端のオープンソースビジョン言語モデル(VLM)を評価する。
本稿では,VLMの役割を直接決定ジェネレータからセマンティックエンハンサーへシフトさせるアプローチを提案する。
提案手法は,VLMを信頼性・解釈可能なADシステムに統合する上で有望な方向を提供することにより,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 39.29020915361483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in autonomous driving (AD) have explored the use of vision-language models (VLMs) within visual question answering (VQA) frameworks for direct driving decision-making. However, these approaches often depend on handcrafted prompts and suffer from inconsistent performance, limiting their robustness and generalization in real-world scenarios. In this work, we evaluate state-of-the-art open-source VLMs on high-level decision-making tasks using ego-view visual inputs and identify critical limitations in their ability to deliver reliable, context-aware decisions. Motivated by these observations, we propose a new approach that shifts the role of VLMs from direct decision generators to semantic enhancers. Specifically, we leverage their strong general scene understanding to enrich existing vision-based benchmarks with structured, linguistically rich scene descriptions. Building on this enriched representation, we introduce a multi-modal interactive architecture that fuses visual and linguistic features for more accurate decision-making and interpretable textual explanations. Furthermore, we design a post-hoc refinement module that utilizes VLMs to enhance prediction reliability. Extensive experiments on two autonomous driving benchmarks demonstrate that our approach achieves state-of-the-art performance, offering a promising direction for integrating VLMs into reliable and interpretable AD systems.
- Abstract(参考訳): 自律運転(AD)の最近の進歩は、直接運転意思決定のための視覚質問応答(VQA)フレームワークにおける視覚言語モデル(VLM)の使用を探求している。
しかし、これらのアプローチはしばしば手作りのプロンプトに依存し、現実のシナリオにおける頑丈さと一般化を制限し、一貫性のないパフォーマンスに苦しむ。
本研究では,ego-viewビジュアルインプットを用いた高レベルの意思決定タスクに対して,最先端のオープンソースVLMを評価し,信頼性の高いコンテキスト認識型意思決定を実現する能力において,限界を識別する。
そこで本研究では,VLMの役割を直接決定ジェネレータからセマンティックエンハンサーへシフトさせる手法を提案する。
具体的には、それらの強い一般的なシーン理解を活用して、構造化された言語的に豊かなシーン記述を持つ既存の視覚ベースのベンチマークを豊かにする。
この豊かな表現に基づいて、より正確な意思決定と解釈可能なテキスト説明のために、視覚的・言語的特徴を融合したマルチモーダルな対話型アーキテクチャを導入する。
さらに,VLMを利用して予測信頼性を向上させるポストホックリファインメントモジュールを設計する。
2つの自律運転ベンチマークの大規模な実験により、我々の手法は最先端の性能を実現し、VLMを信頼性と解釈可能なADシステムに統合するための有望な方向性を提供する。
関連論文リスト
- Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning [124.48672228625821]
Vlaser - 相乗的具体的推論機能を備えたビジョン・ランゲージ・アクション・モデルを紹介する。
Vlaserは、様々な具体的推論ベンチマークで最先端のパフォーマンスを達成する。
提案手法は,WidowXベンチマークの最先端結果と,Google Robotベンチマークの競合性能を実現する。
論文 参考訳(メタデータ) (2025-10-13T05:51:22Z) - LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving [58.535516533697425]
視覚言語モデル(VLM)はシーン理解において有望な能力を示している。
本稿では,自律運転に適した視覚言語フレームワークLMADを提案する。
本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。
論文 参考訳(メタデータ) (2025-08-17T15:42:54Z) - Praxis-VLM: Vision-Grounded Decision Making via Text-Driven Reinforcement Learning [16.938301925105097]
本稿では,視覚的シーンをテキスト記述に置き換えることで,視覚言語モデルが驚くほど強力な意思決定性能が得られることを示す。
視覚的意思決定のための推論VLMであるPrxis-VLMを提案する。
論文 参考訳(メタデータ) (2025-03-21T09:25:23Z) - VIPER: Visual Perception and Explainable Reasoning for Sequential Decision-Making [17.313485392764353]
VIPERはマルチモーダル命令ベースの計画のための新しいフレームワークである。
VLMベースの知覚とLLMベースの推論を統合する。
その結果、VIPERは最先端のビジュアル・インストラクション・ベース・プランナーよりも優れていた。
論文 参考訳(メタデータ) (2025-03-19T11:05:42Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。