論文の概要: Prune2Drive: A Plug-and-Play Framework for Accelerating Vision-Language Models in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2508.13305v1
- Date: Mon, 18 Aug 2025 18:47:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.704298
- Title: Prune2Drive: A Plug-and-Play Framework for Accelerating Vision-Language Models in Autonomous Driving
- Title(参考訳): Prune2Drive: 自動運転におけるビジョンランゲージモデルの高速化のためのプラグイン・アンド・プレイフレームワーク
- Authors: Minhao Xiong, Zichen Wen, Zhuangcheng Gu, Xuyang Liu, Rui Zhang, Hengrui Kang, Jiabing Yang, Junyuan Zhang, Weijia Li, Conghui He, Yafei Wang, Linfeng Zhang,
- Abstract要約: VLM(Vision-Language Models)は、自動運転において有望なパラダイムとして登場した。
VLMは、視覚入力と自然言語命令を共同でモデル化することで、認識、推論、意思決定のための統一されたフレームワークを提供する。
自律運転における多視点VLMのためのプラグ&プレイ型ビジュアルトークンプルーニングフレームワークPrune2Driveを提案する。
- 参考スコア(独自算出の注目度): 24.2108745917843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have emerged as a promising paradigm in autonomous driving (AD), offering a unified framework for perception, reasoning, and decision-making by jointly modeling visual inputs and natural language instructions. However, their deployment is hindered by the significant computational overhead incurred when processing high-resolution, multi-view images, a standard setup in AD systems with six or more synchronized cameras. This overhead stems from the large number of visual tokens generated during encoding, increasing inference latency and memory consumption due to the quadratic complexity of self-attention. To address these challenges, we propose Prune2Drive, a plug-and-play visual token pruning framework for multi-view VLMs in autonomous driving. Prune2Drive introduces two core innovations: (i) a diversity-aware token selection mechanism inspired by farthest point sampling, which prioritizes semantic and spatial coverage across views rather than relying solely on attention scores, and (ii) a view-adaptive pruning controller that learns optimal pruning ratios for each camera view based on their importance to downstream driving tasks. Unlike prior methods, Prune2Drive does not require model retraining or access to attention maps, making it compatible with modern efficient attention implementations. Extensive experiments on two large-scale multi-view driving benchmarks, DriveLM and DriveLMM-o1, show that Prune2Drive achieves significant speedups and memory savings while maintaining or improving task performance. When retaining only 10% of the visual tokens, our method achieves a 6.40$\times$ speedup in the prefilling phase and consumes 13.4% of the original FLOPs, with only a 3% performance drop on the DriveLM benchmark.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚入力と自然言語命令を共同でモデル化することによって、知覚、推論、意思決定のための統一されたフレームワークを提供する、自律運転(AD)における有望なパラダイムとして登場した。
しかし、それらの展開は、6つ以上の同期カメラを備えたADシステムにおける標準設定である高解像度のマルチビュー画像を処理する際に発生する計算オーバーヘッドによって妨げられている。
このオーバーヘッドはエンコーディング中に発生する視覚トークンの多さに起因しており、自己アテンションの二次的な複雑さのために、推論遅延とメモリ消費が増加する。
これらの課題に対処するために,自律運転における多視点VLMのためのプラグアンドプレイ視覚トークンプルーニングフレームワークPrune2Driveを提案する。
Prune2Driveが2つのコアイノベーションを導入
一 注目点のみに頼らず、視点間の意味的・空間的カバレッジを優先する最遠点サンプリングに触発された多様性に配慮したトークン選択機構
(i)下流運転タスクの重要性に基づき、各カメラビューに対して最適なプルーニング比を学習するビュー適応プルーニングコントローラ。
従来の方法とは異なり、Prune2Driveはモデルの再トレーニングやアテンションマップへのアクセスを必要としないため、現代の効率的なアテンション実装と互換性がある。
DriveLMとDriveLMM-o1という2つの大規模マルチビュー駆動ベンチマークの大規模な実験は、Prune2Driveがタスク性能を維持したり改善したりしながら、大幅なスピードアップとメモリ節約を実現していることを示している。
視覚トークンの10%しか保持していない場合、プリフィルフェーズで6.40$\times$の高速化を実現し、元のFLOPの13.4%を消費し、DriveLMベンチマークでは3%のパフォーマンス低下しか達成していない。
関連論文リスト
- TinyDrive: Multiscale Visual Question Answering with Selective Token Routing for Autonomous Driving [10.439455144126617]
TinyDriveは、シナリオ駆動におけるマルチビューVQAのための軽量なVLMである。
本モデルは,マルチスケールビジョンエンコーダとトークンとシーケンスの二重レベル優先順位付け機構を含む2つの重要なコンポーネントから構成される。
TinyDriveは、私たちのカスタムキュレートされたVQAデータセットで最初に評価され、その後、パブリックなDriveLMベンチマークでテストされます。
論文 参考訳(メタデータ) (2025-05-21T14:19:24Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。
CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。
CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文 参考訳(メタデータ) (2024-12-04T18:02:49Z) - MiniDrive: More Efficient Vision-Language Models with Multi-Level 2D Features as Text Tokens for Autonomous Driving [11.045411890043919]
視覚言語モデル(VLM)は、自律運転における汎用的なエンドツーエンドモデルとして機能する。
既存のほとんどの手法は計算コストのかかるビジュアルエンコーダと大言語モデル(LLM)に依存している。
提案するFE-MoE(Feature Engineering Mixture of Experts)モジュールとDI-Adapter(Dynamic Instruction Adapter)を組み込んだMiniDriveという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-11T13:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。