論文の概要: VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm
- arxiv url: http://arxiv.org/abs/2512.02700v1
- Date: Tue, 02 Dec 2025 12:30:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.862584
- Title: VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm
- Title(参考訳): VLM-Pruner: 効率的なVLM遠心式トーチングパラダイムにおける空間空間空間間隔のバッファリング
- Authors: Zhenkai Wu, Xiaowen Ma, Zhenliang Ni, Dengming Zhang, Han Shu, Xin Jiang, Xinghao Chen,
- Abstract要約: 視覚言語モデル(VLM)は画像理解タスクに優れるが、多数の視覚トークンは計算コストを大幅に上回る。
VLM-Prunerは、冗長性と空間空間幅のバランスをとる訓練不要なトークンプルーニングアルゴリズムである。
VLM-Prunerは5つのVLMにおいて88.9%のプルーニングレートで強いベースラインを一貫して上回り、エンドツーエンドの推論スピードアップを実現している。
- 参考スコア(独自算出の注目度): 18.604455802016233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) excel at image understanding tasks, but the large number of visual tokens imposes significant computational costs, hindering deployment on mobile devices. Many pruning methods rely solely on token importance and thus overlook inter-token redundancy, retaining numerous duplicated tokens and wasting capacity. Although some redundancy-aware approaches have been proposed, they often ignore the spatial relationships among visual tokens. This can lead to overly sparse selections of retained tokens that fail to adequately cover the regions of target objects. To address these limitations, we propose VLM-Pruner, a training-free token pruning algorithm that explicitly balances redundancy and spatial sparsity. We introduce a centrifugal token pruning paradigm that enables near-to-far selection while prioritizing the preservation of fine-grained object details. Moreover, we design a Buffering for Spatial Sparsity (BSS) criterion that defers the selection of spatially distant tokens. We further adopt a parallel greedy strategy to conduct token selection efficiently. To mitigate information loss from pruning, we selectively fuse salient information from the discarded tokens into the retained ones. Comprehensive comparisons demonstrate that VLM-Pruner consistently outperforms strong baselines across five VLMs with an 88.9\% pruning rate, while delivering an end-to-end inference speedup.
- Abstract(参考訳): 視覚言語モデル(VLM)は画像理解タスクに優れるが、多数の視覚トークンが計算コストを大幅に上回っており、モバイルデバイスへの展開を妨げている。
多くのプルーニング法はトークンの重要性にのみ依存しているため、トークン間の冗長性を見落とし、重複したトークンを多数保持し、容量を浪費する。
冗長性を考慮したアプローチはいくつか提案されているが、視覚トークン間の空間的関係を無視することが多い。
これは、ターゲットオブジェクトの領域を適切にカバーできない保持トークンの過剰な選択につながる可能性がある。
これらの制約に対処するため,トレーニング不要なトークンプルーニングアルゴリズムであるVLM-Prunerを提案する。
本稿では,細粒度オブジェクトの保存を優先しながら,近距離選択が可能な遠心式トークンプルーニングパラダイムを提案する。
さらに,空間的に離れたトークンの選択を損なうような空間スペーサ(Spatial Sparsity, BSS)基準のバッファリングを設計する。
さらに,トークン選択を効率的に行うために,並列グリージー戦略を採用する。
刈り取りからの情報損失を軽減するため,捨てられたトークンから保存したトークンに,選択的に敬意の情報を注入する。
総合的な比較では、VLM-Prunerは5つのVLMの強いベースラインを88.9%のプルーニングレートで一貫して上回り、エンドツーエンドの推論スピードアップを提供する。
関連論文リスト
- ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models [7.7352936204066]
本稿では,タスク関連性と情報多様性のバランスとして,視覚トークンプルーニングをモデル化する新しいゼロショット手法を提案する。
本手法は,精度の低下を最小限に抑えて,最先端技術に適合または超越した性能を実現する。
これらのゲインには、GPUメモリフットプリントの大幅な削減と推論レイテンシが伴っている。
論文 参考訳(メタデータ) (2025-10-20T06:18:47Z) - Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention [50.97683288777336]
MLLM(Multimodal Large Language Models)は、巨大な視覚トークンに依存するため、計算オーバーヘッドがかなり大きい。
近年の研究では、この問題を緩和するためにトークンプルーニングが検討されている。
本稿では,効率的な推論のためのビジュアルトークン・プルーニング・フレームワークであるHoloVを提案する。
論文 参考訳(メタデータ) (2025-10-03T11:33:40Z) - TrimTokenator: Towards Adaptive Visual Token Pruning for Large Multimodal Models [4.779482139419908]
テキストトークンと意味的に視覚トークンを除去する相互情報に基づくトークンプルーニング戦略を導入する。
LLaVA-15-7BやLLaVA-7Bといったモデルでは,テキストトークンを88.9%削減しながら高い性能を維持している。
論文 参考訳(メタデータ) (2025-08-30T02:43:50Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z) - Compressing KV Cache for Long-Context LLM Inference with Inter-Layer Attention Similarity [24.118503938098307]
textscPoDはトークンの重要度に応じてメモリを割り当てる。
textscPoDは、パフォーマンスを損なうことなく、KVキャッシュメモリ使用量を最大35%削減する。
論文 参考訳(メタデータ) (2024-12-03T08:29:27Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。