論文の概要: HAWK: Head Importance-Aware Visual Token Pruning in Multimodal Models
- arxiv url: http://arxiv.org/abs/2604.07812v1
- Date: Thu, 09 Apr 2026 05:09:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.707786
- Title: HAWK: Head Importance-Aware Visual Token Pruning in Multimodal Models
- Title(参考訳): HAWK:マルチモーダルモデルにおける重要度を考慮した視覚的トーケンプルーニング
- Authors: Qihui Zhu, Tao Zhang, Yuchen Wang, Zijian Wen, Mengjie Zhang, Shuangwu Chen, Xiaobin Tan, Jian Yang, Yang Liu, Zhenhua Dong, Xianzhi Yu, Yinfei Pan,
- Abstract要約: マルチモーダル大言語モデル(MLLM)では、視覚トークンの急増は推論時間と計算オーバーヘッドを大幅に増加させる。
ビジュアルトークンプルーニングは、冗長なビジュアルトークンを削除することでMLLM推論のコストを削減するための有望な戦略である。
ホーク(英: Hawk)は、重要トークンの保持を最大化するために視覚タスクにおける注目ヘッドの重要性を知覚する、視覚的重要なトークンのプルーニング手法である。
- 参考スコア(独自算出の注目度): 41.41768757204328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multimodal large language models (MLLMs), the surge of visual tokens significantly increases the inference time and computational overhead, making them impractical for real-time or resource-constrained applications. Visual token pruning is a promising strategy for reducing the cost of MLLM inference by removing redundant visual tokens. Existing research usually assumes that all attention heads contribute equally to the visual interpretation. However, our study reveals that different heads may capture distinct visual semantics and inherently play distinct roles in visual processing. In light of this observation, we propose HAWK, a head importance-aware visual token pruning method that perceives the varying importance of attention heads in visual tasks to maximize the retention of crucial tokens. By leveraging head importance weights and text-guided attention to assess visual token significance, HAWK effectively retains task-relevant visual tokens while removing redundant ones. The proposed HAWK is entirely training-free and can be seamlessly applied to various MLLMs. Extensive experiments on multiple mainstream vision-language benchmarks demonstrate that HAWK achieves state-of-the-art accuracy. When applied to Qwen2.5-VL, HAWK retains 96.0% of the original accuracy after pruning 80.2% of the visual tokens. Additionally, it reduces end-to-end latency to 74.4% of the original and further decreases GPU memory usage across the tested models. The code is available at https://github.com/peppery77/HAWK.git.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)では、視覚トークンの急増は推論時間と計算オーバーヘッドを大幅に増加させ、リアルタイムやリソース制約のあるアプリケーションでは実用的ではない。
ビジュアルトークンプルーニングは、冗長なビジュアルトークンを削除することでMLLM推論のコストを削減するための有望な戦略である。
既存の研究は通常、すべての注意点が視覚的解釈に等しく寄与していると仮定する。
しかし、本研究では、異なる頭部が異なる視覚的意味を捉え、本質的に視覚処理において異なる役割を担っていることを明らかにした。
そこで本研究では,重要なトークンの保持を最大化するために,視覚的タスクにおける注目ヘッドの重要性の変動を認識できる頭部重要度認識型視覚トークンプルーニング法HAWKを提案する。
頭部重みとテキスト誘導による注意力を利用して視覚的トークンの重要度を評価することにより、HAWKは、冗長なトークンを除去しながら、タスク関連視覚トークンを効果的に保持する。
提案したHAWKは完全にトレーニングなしで、様々なMLLMにシームレスに適用できる。
複数の主流のビジョン言語ベンチマークに関する大規模な実験は、HAWKが最先端の精度を達成することを示した。
Qwen2.5-VLに適用した場合、HAWKは、視覚トークンの80.2%をプルーニングした後、元の精度の96.0%を維持している。
さらに、エンドツーエンドのレイテンシをオリジナルの74.4%に削減し、テストされたモデル全体のGPUメモリ使用量をさらに削減する。
コードはhttps://github.com/peppery77/HAWK.gitで公開されている。
関連論文リスト
- All You Need Are Random Visual Tokens? Demystifying Token Pruning in VLLMs [43.80391827200227]
ディープレイヤでは、既存のトレーニングフリープルーニング手法はランダムプルーニングに勝る。
ビジュアルトークンは、ネットワーク深度の増加に伴い、徐々にサリエンスを失う。
深層層での単純なランダムプルーニングは性能と効率のバランスを効果的に表す。
論文 参考訳(メタデータ) (2025-12-08T14:16:01Z) - Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention [50.97683288777336]
MLLM(Multimodal Large Language Models)は、巨大な視覚トークンに依存するため、計算オーバーヘッドがかなり大きい。
近年の研究では、この問題を緩和するためにトークンプルーニングが検討されている。
本稿では,効率的な推論のためのビジュアルトークン・プルーニング・フレームワークであるHoloVを提案する。
論文 参考訳(メタデータ) (2025-10-03T11:33:40Z) - VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。
しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。
視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:55Z) - ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - Introducing Visual Perception Token into Multimodal Large Language Model [53.82301522384719]
MLLM(Multimodal Large Language Model)はその視覚エンコーダの知覚過程に依存している。
MLLMには、独自の視覚知覚プロセスを制御する自律的な能力がない。
本稿では,視覚知覚のプロセスを制御する機構をMLLMに組み込むことを目的として,視覚知覚トークンの概念を提案する。
論文 参考訳(メタデータ) (2025-02-24T18:56:12Z) - Beyond Text-Visual Attention: Exploiting Visual Cues for Effective Token Pruning in VLMs [34.3615740255575]
大規模視覚言語モデル(LVLM)は一般的に、テキストのトークンよりもはるかに多くの視覚トークンを含んでいる。
LVLMにおけるより効果的なトークンプルーニングに視覚的手がかりを利用するプラグイン・アンド・プレイ方式であるVisPrunerを提案する。
その結果, VisPruner は LLaVA-1.5-7B の FLOP を 91% 削減し, 推論遅延を 75% 削減できることを示した。
論文 参考訳(メタデータ) (2024-12-02T18:57:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。