論文の概要: Prune2Drive: A Plug-and-Play Framework for Accelerating Vision-Language Models in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2508.13305v1
- Date: Mon, 18 Aug 2025 18:47:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.704298
- Title: Prune2Drive: A Plug-and-Play Framework for Accelerating Vision-Language Models in Autonomous Driving
- Title(参考訳): Prune2Drive: 自動運転におけるビジョンランゲージモデルの高速化のためのプラグイン・アンド・プレイフレームワーク
- Authors: Minhao Xiong, Zichen Wen, Zhuangcheng Gu, Xuyang Liu, Rui Zhang, Hengrui Kang, Jiabing Yang, Junyuan Zhang, Weijia Li, Conghui He, Yafei Wang, Linfeng Zhang,
- Abstract要約: VLM(Vision-Language Models)は、自動運転において有望なパラダイムとして登場した。
VLMは、視覚入力と自然言語命令を共同でモデル化することで、認識、推論、意思決定のための統一されたフレームワークを提供する。
自律運転における多視点VLMのためのプラグ&プレイ型ビジュアルトークンプルーニングフレームワークPrune2Driveを提案する。
- 参考スコア(独自算出の注目度): 24.2108745917843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have emerged as a promising paradigm in autonomous driving (AD), offering a unified framework for perception, reasoning, and decision-making by jointly modeling visual inputs and natural language instructions. However, their deployment is hindered by the significant computational overhead incurred when processing high-resolution, multi-view images, a standard setup in AD systems with six or more synchronized cameras. This overhead stems from the large number of visual tokens generated during encoding, increasing inference latency and memory consumption due to the quadratic complexity of self-attention. To address these challenges, we propose Prune2Drive, a plug-and-play visual token pruning framework for multi-view VLMs in autonomous driving. Prune2Drive introduces two core innovations: (i) a diversity-aware token selection mechanism inspired by farthest point sampling, which prioritizes semantic and spatial coverage across views rather than relying solely on attention scores, and (ii) a view-adaptive pruning controller that learns optimal pruning ratios for each camera view based on their importance to downstream driving tasks. Unlike prior methods, Prune2Drive does not require model retraining or access to attention maps, making it compatible with modern efficient attention implementations. Extensive experiments on two large-scale multi-view driving benchmarks, DriveLM and DriveLMM-o1, show that Prune2Drive achieves significant speedups and memory savings while maintaining or improving task performance. When retaining only 10% of the visual tokens, our method achieves a 6.40$\times$ speedup in the prefilling phase and consumes 13.4% of the original FLOPs, with only a 3% performance drop on the DriveLM benchmark.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚入力と自然言語命令を共同でモデル化することによって、知覚、推論、意思決定のための統一されたフレームワークを提供する、自律運転(AD)における有望なパラダイムとして登場した。
しかし、それらの展開は、6つ以上の同期カメラを備えたADシステムにおける標準設定である高解像度のマルチビュー画像を処理する際に発生する計算オーバーヘッドによって妨げられている。
このオーバーヘッドはエンコーディング中に発生する視覚トークンの多さに起因しており、自己アテンションの二次的な複雑さのために、推論遅延とメモリ消費が増加する。
これらの課題に対処するために,自律運転における多視点VLMのためのプラグアンドプレイ視覚トークンプルーニングフレームワークPrune2Driveを提案する。
Prune2Driveが2つのコアイノベーションを導入
一 注目点のみに頼らず、視点間の意味的・空間的カバレッジを優先する最遠点サンプリングに触発された多様性に配慮したトークン選択機構
(i)下流運転タスクの重要性に基づき、各カメラビューに対して最適なプルーニング比を学習するビュー適応プルーニングコントローラ。
従来の方法とは異なり、Prune2Driveはモデルの再トレーニングやアテンションマップへのアクセスを必要としないため、現代の効率的なアテンション実装と互換性がある。
DriveLMとDriveLMM-o1という2つの大規模マルチビュー駆動ベンチマークの大規模な実験は、Prune2Driveがタスク性能を維持したり改善したりしながら、大幅なスピードアップとメモリ節約を実現していることを示している。
視覚トークンの10%しか保持していない場合、プリフィルフェーズで6.40$\times$の高速化を実現し、元のFLOPの13.4%を消費し、DriveLMベンチマークでは3%のパフォーマンス低下しか達成していない。
関連論文リスト
- Towards Efficient and Effective Multi-Camera Encoding for End-to-End Driving [54.85072592658933]
本稿では,自動運転における高ボリュームマルチカメラデータ処理の計算ボトルネックに対処する,効率的かつ効率的なシーンエンコーダFlexを提案する。
設計上,我々のアプローチは幾何学的非依存であり,明快な3次元帰納バイアスに頼ることなく,データから直接コンパクトなシーン表現を学習する。
我々の研究は、データ駆動型共同符号化戦略が将来の自動運転システムにおいて、よりスケーラブルで効率的かつ効果的な経路を提供することを示すために、3Dプリエントが不可欠であるという一般的な仮定に挑戦する。
論文 参考訳(メタデータ) (2025-12-11T18:59:46Z) - VLDrive: Vision-Augmented Lightweight MLLMs for Efficient Language-grounded Autonomous Driving [90.21844353859454]
視覚コンポーネントを拡張した軽量MLLMアーキテクチャを特徴とする新しいアプローチを提案する。
VLDriveは、パラメータを81%削減しながら最先端の駆動性能を達成する。
論文 参考訳(メタデータ) (2025-11-09T07:14:53Z) - FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning [75.80110543049783]
我々は,自律運転のための再建型視覚トークンプルーニングフレームワークであるFastDriveVLAを提案する。
VLAモデルの視覚的エンコーダにReconPrunerを訓練するために, 新たなフォアグラウンド逆バックグラウンド再構築戦略を考案した。
提案手法は,異なるプルーニング比におけるnuScenesオープンループ計画ベンチマークの最先端結果を実現する。
論文 参考訳(メタデータ) (2025-07-31T07:55:56Z) - HMVLM: Multistage Reasoning-Enhanced Vision-Language Model for Long-Tailed Driving Scenarios [3.4075144411363034]
本稿では,認知にインスパイアされた高速スローアーキテクチャの遅い分岐を実装するエンドツーエンド駆動フレームワークであるHaoMo Vision-Language Model(HMVLM)を紹介する。
高速コントローラは低レベルのステアリング、スロットル、ブレーキコマンドを出力し、遅いプランナー、大きな視覚言語モデルでは、遅延を伴わずに「歩行者への利益」や「トラックの後にマージ」のような高レベルのインテントを生成する。
論文 参考訳(メタデータ) (2025-06-06T08:51:06Z) - TinyDrive: Multiscale Visual Question Answering with Selective Token Routing for Autonomous Driving [10.439455144126617]
TinyDriveは、シナリオ駆動におけるマルチビューVQAのための軽量なVLMである。
本モデルは,マルチスケールビジョンエンコーダとトークンとシーケンスの二重レベル優先順位付け機構を含む2つの重要なコンポーネントから構成される。
TinyDriveは、私たちのカスタムキュレートされたVQAデータセットで最初に評価され、その後、パブリックなDriveLMベンチマークでテストされます。
論文 参考訳(メタデータ) (2025-05-21T14:19:24Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。
CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。
CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文 参考訳(メタデータ) (2024-12-04T18:02:49Z) - MiniDrive: More Efficient Vision-Language Models with Multi-Level 2D Features as Text Tokens for Autonomous Driving [11.045411890043919]
視覚言語モデル(VLM)は、自律運転における汎用的なエンドツーエンドモデルとして機能する。
既存のほとんどの手法は計算コストのかかるビジュアルエンコーダと大言語モデル(LLM)に依存している。
提案するFE-MoE(Feature Engineering Mixture of Experts)モジュールとDI-Adapter(Dynamic Instruction Adapter)を組み込んだMiniDriveという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-11T13:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。