論文の概要: PLPHP: Per-Layer Per-Head Vision Token Pruning for Efficient Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2502.14504v1
- Date: Thu, 20 Feb 2025 12:31:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:19.157402
- Title: PLPHP: Per-Layer Per-Head Vision Token Pruning for Efficient Large Vision-Language Models
- Title(参考訳): PLPHP:高能率ビジョンランゲージモデルのためのヘッド当たり1層トーンプルーニング
- Authors: Yu Meng, Kaiyuan Li, Chenran Huang, Chen Gao, Xinlei Chen, Yong Li, Xiaoping Zhang,
- Abstract要約: 本稿では,2レベルきめ細粒度プルーニング法PLPHPを提案する。
PLPHPはアテンションヘッドレベルでプルーニングを適用し、同じレイヤ内の異なるヘッドが独立して重要なコンテキストを保持することができる。
複数のベンチマークの実験では、PLPHPは18%高速なデコード速度を提供し、キーバリューキャッシュ(KVキャッシュ)のサイズを50%以上削減している。
- 参考スコア(独自算出の注目度): 48.31941033266855
- License:
- Abstract: Large Vision-Language Models (LVLMs) have demonstrated remarkable capabilities across a range of multimodal tasks. However, their inference efficiency is constrained by the large number of visual tokens processed during decoding. To address this challenge, we propose Per-Layer Per-Head Vision Token Pruning (PLPHP), a two-level fine-grained pruning method including Layer-Level Retention Rate Allocation and Head-Level Vision Token Pruning. Motivated by the Vision Token Re-attention phenomenon across decoder layers, we dynamically adjust token retention rates layer by layer. Layers that exhibit stronger attention to visual information preserve more vision tokens, while layers with lower vision attention are aggressively pruned. Furthermore, PLPHP applies pruning at the attention head level, enabling different heads within the same layer to independently retain critical context. Experiments on multiple benchmarks demonstrate that PLPHP delivers an 18% faster decoding speed and reduces the Key-Value Cache (KV Cache) size by over 50%, all at the cost of 0.46% average performance drop, while also achieving notable performance improvements in multi-image tasks. These results highlight the effectiveness of fine-grained token pruning and contribute to advancing the efficiency and scalability of LVLMs. Our source code will be made publicly available.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにまたがる顕著な機能を示す。
しかし、その推論効率はデコード時に処理される多数の視覚トークンによって制約される。
この課題に対処するために,レイヤレベル保持率アロケーションとヘッドレベルビジョントークンプルーニングを含む2レベルきめ細粒度プルーニング法であるPLPHP(Per-Layer Per-Head Vision Token Pruning)を提案する。
復号器層間のビジョントークン再配置現象を動機として,トークン保持率層を層単位で動的に調整する。
視覚情報に対するより強い注意を示す層はより多くの視覚トークンを保存し、視力の低い層は積極的に切断される。
さらに、PLPHPはアテンションヘッドレベルでプルーニングを適用し、同一レイヤ内の異なるヘッドが独立して重要なコンテキストを保持することができる。
複数のベンチマークの実験では、PLPHPは18%高速なデコード速度を提供し、キーバリューキャッシュ(KVキャッシュ)のサイズを50%以上削減し、平均パフォーマンスが0.46%低下した。
これらの結果は, 微細なトークンプルーニングの有効性を強調し, LVLMの効率性とスケーラビリティの向上に寄与する。
私たちのソースコードは公開されます。
関連論文リスト
- [CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。
しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。
本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-12-08T05:29:39Z) - Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction [62.8375542401319]
MLLM(Multimodal Large Language Models)は、入力イメージを視覚トークンとしてエンコードし、それらを言語バックボーンに入力する。
画像解像度が大きくなるにつれて、視覚トークンの数は2次的に増加し、膨大な計算コストがかかる。
本稿では,各層を浅層から深層まで保持する最小限の視覚トークンを求めるために,欲求探索アルゴリズム(G-Search)を提案する。
論文 参考訳(メタデータ) (2024-11-30T18:54:32Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification [29.163757099307553]
大規模視覚言語モデル(LVLM)の効率は、プリフィルフェーズにおける注意機構の計算ボトルネックによって制約される。
本稿では,重要なトークンの動的比割り当て戦略を通じて,LVLM向けに設計された効率的な推論フレームワークZipVLを提案する。
論文 参考訳(メタデータ) (2024-10-11T07:24:21Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。