論文の概要: VLAD: A VLM-Augmented Autonomous Driving Framework with Hierarchical Planning and Interpretable Decision Process
- arxiv url: http://arxiv.org/abs/2507.01284v1
- Date: Wed, 02 Jul 2025 01:52:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.978868
- Title: VLAD: A VLM-Augmented Autonomous Driving Framework with Hierarchical Planning and Interpretable Decision Process
- Title(参考訳): VLAD:階層的計画と解釈可能な決定プロセスを備えたVLM拡張自律走行フレームワーク
- Authors: Cristian Gariboldi, Hayato Tokida, Ken Kinjo, Yuki Asada, Alexander Carballo,
- Abstract要約: 本稿では,VLM(Visual Language Models)を最先端のエンドツーエンドシステムと統合した視覚言語自律運転モデルを提案する。
モデルの空間的推論能力を改善するために特別に設計された質問応答データセットを用いて、特殊な微調整手法を実装した。
本システムは,従来のブラックボックス・エンド・ツー・エンドアーキテクチャの透明性と信頼性を高めるために,運転決定の解釈可能な自然言語説明を生成する。
- 参考スコア(独自算出の注目度): 40.3578745624081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in open-source Visual Language Models (VLMs) such as LLaVA, Qwen-VL, and Llama have catalyzed extensive research on their integration with diverse systems. The internet-scale general knowledge encapsulated within these models presents significant opportunities for enhancing autonomous driving perception, prediction, and planning capabilities. In this paper we propose VLAD, a vision-language autonomous driving model, which integrates a fine-tuned VLM with VAD, a state-of-the-art end-to-end system. We implement a specialized fine-tuning approach using custom question-answer datasets designed specifically to improve the spatial reasoning capabilities of the model. The enhanced VLM generates high-level navigational commands that VAD subsequently processes to guide vehicle operation. Additionally, our system produces interpretable natural language explanations of driving decisions, thereby increasing transparency and trustworthiness of the traditionally black-box end-to-end architecture. Comprehensive evaluation on the real-world nuScenes dataset demonstrates that our integrated system reduces average collision rates by 31.82% compared to baseline methodologies, establishing a new benchmark for VLM-augmented autonomous driving systems.
- Abstract(参考訳): LLaVA、Qwen-VL、Llamaといったオープンソースのビジュアル言語モデル(VLM)の最近の進歩は、様々なシステムとの統合に関する広範な研究を触媒にした。
これらのモデルにカプセル化されたインターネット規模の一般知識は、自律運転認識、予測、計画能力を向上する重要な機会を提供する。
本稿では、細調整されたVLMと最先端のエンドツーエンドシステムであるVADを統合した視覚言語自律運転モデルVLADを提案する。
モデルの空間的推論能力を改善するために特別に設計された質問応答データセットを用いて、特殊な微調整手法を実装した。
強化されたVLMは高レベルのナビゲーションコマンドを生成し、VADはその後、車両の操作を誘導する。
さらに,従来のブラックボックス・エンド・ツー・エンドアーキテクチャの透明性と信頼性を高めるために,運転決定の解釈可能な自然言語説明を生成する。
実世界のnuScenesデータセットの総合的な評価により、我々の統合システムはベースライン方式と比較して平均衝突率を31.82%削減し、VLM強化自動運転システムの新しいベンチマークを確立した。
関連論文リスト
- SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving [9.447298958886265]
VLM(Vision-Language Models)は、エンドツーエンドの自動運転において大きな可能性を実証している。
光EMMA(Lightweight End-to-End Multimodal Model for autonomous driving)を紹介する。
様々なVLMを用いて12個の自律運転エージェントを構築し,その性能をnuScenes予測タスクで評価する。
論文 参考訳(メタデータ) (2025-05-01T04:12:41Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。
クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文 参考訳(メタデータ) (2025-01-15T15:20:46Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。
このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文 参考訳(メタデータ) (2024-08-19T09:53:49Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。