論文の概要: All You Need Are Random Visual Tokens? Demystifying Token Pruning in VLLMs
- arxiv url: http://arxiv.org/abs/2512.07580v1
- Date: Mon, 08 Dec 2025 14:16:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.919622
- Title: All You Need Are Random Visual Tokens? Demystifying Token Pruning in VLLMs
- Title(参考訳): ランダムな視覚トーケンは必要なものすべて? VLLMでのトーケンプルーニングの難しさ
- Authors: Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Xianfeng Tang, Hui Liu, Yuyin Zhou, Lianghua He,
- Abstract要約: ディープレイヤでは、既存のトレーニングフリープルーニング手法はランダムプルーニングに勝る。
ビジュアルトークンは、ネットワーク深度の増加に伴い、徐々にサリエンスを失う。
深層層での単純なランダムプルーニングは性能と効率のバランスを効果的に表す。
- 参考スコア(独自算出の注目度): 43.80391827200227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Large Language Models (VLLMs) incur high computational costs due to their reliance on hundreds of visual tokens to represent images. While token pruning offers a promising solution for accelerating inference, this paper, however, identifies a key observation: in deeper layers (e.g., beyond the 20th), existing training-free pruning methods perform no better than random pruning. We hypothesize that this degradation is caused by "vanishing token information", where visual tokens progressively lose their salience with increasing network depth. To validate this hypothesis, we quantify a token's information content by measuring the change in the model output probabilities upon its removal. Using this proposed metric, our analysis of the information of visual tokens across layers reveals three key findings: (1) As layers deepen, the information of visual tokens gradually becomes uniform and eventually vanishes at an intermediate layer, which we term as "information horizon", beyond which the visual tokens become redundant; (2) The position of this horizon is not static; it extends deeper for visually intensive tasks, such as Optical Character Recognition (OCR), compared to more general tasks like Visual Question Answering (VQA); (3) This horizon is also strongly correlated with model capacity, as stronger VLLMs (e.g., Qwen2.5-VL) employ deeper visual tokens than weaker models (e.g., LLaVA-1.5). Based on our findings, we show that simple random pruning in deep layers efficiently balances performance and efficiency. Moreover, integrating random pruning consistently enhances existing methods. Using DivPrune with random pruning achieves state-of-the-art results, maintaining 96.9% of Qwen-2.5-VL-7B performance while pruning 50% of visual tokens. The code will be publicly available at https://github.com/YahongWang1/Information-Horizon.
- Abstract(参考訳): 視覚大言語モデル(VLLM)は、画像を表す数百の視覚トークンに依存するため、計算コストが高い。
トークンプルーニング(トークンプルーニング)は推論を高速化する上で有望なソリューションであるが,本論文では,より深い層(例えば20世紀を超える層)において,既存のトレーニングフリープルーニング手法はランダムプルーニングよりも優れた性能を示す。
我々は、この劣化は「トークン情報の消滅」によって引き起こされると仮定する。
この仮説を検証するために,その除去に伴うモデル出力確率の変化を測定することにより,トークンの情報内容の定量化を行う。
層が深まるにつれて、視覚トークンの情報は徐々に一様になっていき、最終的には中間層で消えて、視覚トークンが冗長になる"情報水平線"と呼ばれるようになる。(2) 地平線の位置は静的ではなく、光学的文字認識(OCR)のような視覚的に集中的なタスクに対して、視覚的質問応答(VQA)のようなより一般的なタスクよりも深く、(3) この地平線はモデル能力と強く相関している。
以上の結果から,深層での単純なランダムプルーニングは性能と効率のバランスを効果的に表すことを示した。
さらに、ランダムプルーニングの統合は、既存の手法を一貫して強化する。
ランダムプルーニングでDivPruneを使用することで最先端の結果が得られ、Qwen-2.5-VL-7Bの性能の96.9%を維持しながら、50%のビジュアルトークンをプルーニングする。
コードはhttps://github.com/YahongWang1/Information-Horizon.comで公開される。
関連論文リスト
- Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention [50.97683288777336]
MLLM(Multimodal Large Language Models)は、巨大な視覚トークンに依存するため、計算オーバーヘッドがかなり大きい。
近年の研究では、この問題を緩和するためにトークンプルーニングが検討されている。
本稿では,効率的な推論のためのビジュアルトークン・プルーニング・フレームワークであるHoloVを提案する。
論文 参考訳(メタデータ) (2025-10-03T11:33:40Z) - VFlowOpt: A Token Pruning Framework for LMMs with Visual Information Flow-Guided Optimization [70.98122339799218]
LMM(Large Multimodal Models)は、多数の視覚トークンを微粒な視覚情報に活用することにより、視覚言語タスクに優れる。
推論中の視覚トークンを減らすことを目的とした以前の研究は、一般的に、視覚のみのトークンや視覚言語トークンの注意スコアから得られた重要マップを利用して、1つまたは複数のプルーニング段階にわたってトークンをプルーンする。
重要地図導出プロセスとリサイクル機構を備えたプログレッシブプルーニングモジュールを導入したトークンプルーニングフレームワークであるVFlowOptを提案する。
実験により、VFlowOptは、同等のパフォーマンスを維持しながら、90%のビジュアルトークンをプルークでき、KVキャッシュメモリが89%削減され、3.8になった。
論文 参考訳(メタデータ) (2025-08-07T09:47:21Z) - HiPrune: Training-Free Visual Token Pruning via Hierarchical Attention in Vision-Language Models [6.306822764683807]
HiPruneは、ビジョンエンコーダのためのトレーニング不要でモデルに依存しないトークンプルーニングフレームワークである。
視覚エンコーダ内の階層的アテンション構造を利用する。
33.3%のトークンで99.3%のタスク精度を維持し、11.1%のトークンで99.5%の精度を維持している。
論文 参考訳(メタデータ) (2025-08-01T11:48:11Z) - Revisiting Token Pruning for Object Detection and Instance Segmentation [25.3324628669201]
オブジェクトとインスタンスのセグメンテーションの推論を高速化するトークンプルーニングについて検討する。
従来のトークンプルーニング法と比較して,ボックス・マスクともに1.5mAPから0.3mAPに低下した。
論文 参考訳(メタデータ) (2023-06-12T11:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。