Fugu-MT 論文翻訳(概要): LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving

論文の概要: LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving

arxiv url: http://arxiv.org/abs/2508.12404v1
Date: Sun, 17 Aug 2025 15:42:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-19 14:49:10.74623
Title: LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving
Title（参考訳）: LMAD:説明可能な自律運転のための統合エンドツーエンドビジョンランゲージモデル
Authors: Nan Song, Bozhou Zhang, Xiatian Zhu, Jiankang Deng, Li Zhang,
Abstract要約: 視覚言語モデル(VLM)はシーン理解において有望な能力を示している。本稿では,自律運転に適した視覚言語フレームワークLMADを提案する。本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。
参考スコア（独自算出の注目度）: 58.535516533697425
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large vision-language models (VLMs) have shown promising capabilities in scene understanding, enhancing the explainability of driving behaviors and interactivity with users. Existing methods primarily fine-tune VLMs on on-board multi-view images and scene reasoning text, but this approach often lacks the holistic and nuanced scene recognition and powerful spatial awareness required for autonomous driving, especially in complex situations. To address this gap, we propose a novel vision-language framework tailored for autonomous driving, called LMAD. Our framework emulates modern end-to-end driving paradigms by incorporating comprehensive scene understanding and a task-specialized structure with VLMs. In particular, we introduce preliminary scene interaction and specialized expert adapters within the same driving task structure, which better align VLMs with autonomous driving scenarios. Furthermore, our approach is designed to be fully compatible with existing VLMs while seamlessly integrating with planning-oriented driving systems. Extensive experiments on the DriveLM and nuScenes-QA datasets demonstrate that LMAD significantly boosts the performance of existing VLMs on driving reasoning tasks,setting a new standard in explainable autonomous driving.
Abstract（参考訳）: 大規模視覚言語モデル(VLM)は、シーン理解において有望な能力を示し、運転行動の説明可能性とユーザとの対話性を高めている。既存の手法は主に、車載マルチビュー画像とシーン推論テキスト上の微調整VLMであるが、このアプローチは、特に複雑な状況において、自律運転に必要な全体的かつニュアンスなシーン認識と強力な空間認識を欠いていることが多い。このギャップに対処するために、LMADと呼ばれる自律運転に適した新しい視覚言語フレームワークを提案する。本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。特に,VLMと自律走行シナリオとの整合性が向上する運転タスク構造において,シーンの予備的相互作用と専門的専門家アダプタを導入する。さらに,本手法は,計画駆動システムとシームレスに統合しながら,既存のVLMと完全に互換性を持つように設計されている。 DriveLMとnuScenes-QAデータセットの大規模な実験により、LMADが既存のVLMの性能を大幅に向上し、説明可能な自律運転における新しい標準が設定された。

関連論文リスト

SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文参考訳（メタデータ） (2026-01-09T08:55:42Z)
ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文参考訳（メタデータ） (2025-08-15T12:06:55Z)
LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving [13.136505955569875]
VLM(Vision-Language Models)は、エンドツーエンドの自動運転において大きな可能性を実証している。光EMMA(Lightweight End-to-End Multimodal Model for autonomous driving)を紹介する。
論文参考訳（メタデータ） (2025-05-01T04:12:41Z)
VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。 VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文参考訳（メタデータ） (2024-12-19T01:53:36Z)
Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [65.04643267731122]
一般的なMLLMとCLIPの組み合わせは、駆動固有のシナリオを正確に表現するのに苦労することが多い。 Hints of Prompt (HoP) フレームワークを提案する。これらのヒントはHint Fusionモジュールを通じて融合され、視覚的表現が強化され、マルチモーダル推論が強化される。
論文参考訳（メタデータ） (2024-11-20T06:58:33Z)
Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。 GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文参考訳（メタデータ） (2024-05-09T17:52:42Z)
Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases [102.05741859030951]
自動運転コーナーケースにおけるLVLMの自動評価のための最初のベンチマークであるCODA-LMを提案する。テキストのみの大規模言語モデルを判断として使用すると、LVLMの判断よりも人間の好みとの整合性が向上することを示す。 CODA-VLM は GPT-4V を+21.42% 上回っても GPT-4V と相容れない性能を示した。
論文参考訳（メタデータ） (2024-04-16T14:20:55Z)
DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models [31.552397390480525]
視覚言語モデル(VLM)を活用した自律運転システムDriveVLMを紹介する。 DriveVLMは、シーン記述、シーン分析、階層計画のための推論モジュールのユニークな組み合わせを統合している。本稿では,DriveVLMの強みを従来の自律走行パイプラインと相乗化するハイブリッドシステムであるDriveVLM-Dualを提案する。
論文参考訳（メタデータ） (2024-02-19T17:04:04Z)
Drive Anywhere: Generalizable End-to-end Autonomous Driving with Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文参考訳（メタデータ） (2023-10-26T17:56:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。