論文の概要: VLDrive: Vision-Augmented Lightweight MLLMs for Efficient Language-grounded Autonomous Driving
- arxiv url: http://arxiv.org/abs/2511.06256v1
- Date: Sun, 09 Nov 2025 07:14:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.844254
- Title: VLDrive: Vision-Augmented Lightweight MLLMs for Efficient Language-grounded Autonomous Driving
- Title(参考訳): VLDrive: 効率的な言語接地型自律運転のためのビジョン強化軽量MLLM
- Authors: Ruifei Zhang, Wei Zhang, Xiao Tan, Sibei Yang, Xiang Wan, Xiaonan Luo, Guanbin Li,
- Abstract要約: 視覚コンポーネントを拡張した軽量MLLMアーキテクチャを特徴とする新しいアプローチを提案する。
VLDriveは、パラメータを81%削減しながら最先端の駆動性能を達成する。
- 参考スコア(独自算出の注目度): 90.21844353859454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in language-grounded autonomous driving have been significantly promoted by the sophisticated cognition and reasoning capabilities of large language models (LLMs). However, current LLM-based approaches encounter critical challenges: (1) Failure analysis reveals that frequent collisions and obstructions, stemming from limitations in visual representations, remain primary obstacles to robust driving performance. (2) The substantial parameters of LLMs pose considerable deployment hurdles. To address these limitations, we introduce VLDrive, a novel approach featuring a lightweight MLLM architecture with enhanced vision components. VLDrive achieves compact visual tokens through innovative strategies, including cycle-consistent dynamic visual pruning and memory-enhanced feature aggregation. Furthermore, we propose a distance-decoupled instruction attention mechanism to improve joint visual-linguistic feature learning, particularly for long-range visual tokens. Extensive experiments conducted in the CARLA simulator demonstrate VLDrive`s effectiveness. Notably, VLDrive achieves state-of-the-art driving performance while reducing parameters by 81% (from 7B to 1.3B), yielding substantial driving score improvements of 15.4%, 16.8%, and 7.6% at tiny, short, and long distances, respectively, in closed-loop evaluations. Code is available at https://github.com/ReaFly/VLDrive.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の高度な認識と推論能力によって,言語基盤型自動運転の進歩が著しく促進されている。
1) 故障解析は、視覚的表現の限界から生じる頻繁な衝突や障害物が、堅牢な運転性能の主要な障害であることを示している。
2) LLM の実質的なパラメータは、相当なデプロイメントハードルをもたらす。
これらの制約に対処するため、視覚コンポーネントを拡張した軽量MLLMアーキテクチャを特徴とする新しいアプローチであるVLDriveを紹介した。
VLDriveは、サイクル一貫性のダイナミックプルーニングやメモリ拡張機能アグリゲーションなど、革新的な戦略を通じて、コンパクトなビジュアルトークンを実現する。
さらに,特に長距離視覚トークンにおいて,共同視覚言語的特徴学習を改善するための距離分離型指導注意機構を提案する。
CARLAシミュレータで実施された大規模な実験は、VLDriveの有効性を実証している。
特に、VLDriveはパラメータを81%(7Bから1.3Bまで)減らしながら最先端の駆動性能を達成し、15.4%、16.8%、そして7.6%という実質的な駆動スコアの改善を、クローズドループ評価において達成している。
コードはhttps://github.com/ReaFly/VLDriveで入手できる。
関連論文リスト
- AdaDrive: Self-Adaptive Slow-Fast System for Language-Grounded Autonomous Driving [71.55254573283793]
既存のアプローチでは、Large Language Modelsを頻繁に起動し、過剰な計算オーバーヘッドを引き起こすか、固定スケジュールを使用するかのいずれかである。
我々は,LLMが意思決定にいつ,どのように貢献するかを最適に決定する,適応的に協調的なスローファストフレームワークであるAdaDriveを提案する。
AdaDriveは、リアルタイムのパフォーマンスを損なうことなく、意思決定の精度を最大化するフレキシブルでコンテキスト対応のフレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-09T07:05:03Z) - The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning [27.75632811770582]
LightVLAは、視覚言語アクション(VLA)モデルのための差別化可能なトークンプルーニングフレームワークである。
ビジュアルトークンの重要性を評価するために動的クエリを生成し、差別化可能なトークン選択を可能にするためにGumbel softmaxを採用する。
LightVLAはFLOPとレイテンシをそれぞれ59.1%、38.2%削減し、タスク成功率は2.6%改善した。
論文 参考訳(メタデータ) (2025-09-16T02:43:46Z) - Prune2Drive: A Plug-and-Play Framework for Accelerating Vision-Language Models in Autonomous Driving [24.2108745917843]
VLM(Vision-Language Models)は、自動運転において有望なパラダイムとして登場した。
VLMは、視覚入力と自然言語命令を共同でモデル化することで、認識、推論、意思決定のための統一されたフレームワークを提供する。
自律運転における多視点VLMのためのプラグ&プレイ型ビジュアルトークンプルーニングフレームワークPrune2Driveを提案する。
論文 参考訳(メタデータ) (2025-08-18T18:47:26Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - Tracking Meets Large Multimodal Models for Driving Scenario Understanding [76.71815464110153]
大規模マルチモーダルモデル(LMM)は、最近自動運転研究で注目されている。
本稿では3次元の空間的・時間的詳細を復元するための追加入力として追跡情報を統合することを提案する。
本稿では,この追跡情報をLMMに埋め込んで,運転シナリオの理解を深めるための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-18T17:59:12Z) - Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。