論文の概要: HIVTP: A Training-Free Method to Improve VLMs Efficiency via Hierarchical Visual Token Pruning Using Middle-Layer-Based Importance Score
- arxiv url: http://arxiv.org/abs/2509.23663v1
- Date: Sun, 28 Sep 2025 05:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.359091
- Title: HIVTP: A Training-Free Method to Improve VLMs Efficiency via Hierarchical Visual Token Pruning Using Middle-Layer-Based Importance Score
- Title(参考訳): HIVTP:ミドル層を用いた階層型ビジュアルトーケンプルーニングによるVLM効率向上のためのトレーニング不要手法
- Authors: Jingqi Xu, Jingxi Lu, Chenghao Li, Sreetama Sarkar, Peter A. Beerel,
- Abstract要約: HIVTPは、VLM(Vision-Language Models)推論効率を改善するためのトレーニング不要の手法である。
本稿では,グローバルかつ局所的に重要な視覚トークンを保持するための階層的視覚トークンプルーニング手法を提案する。
HIVTPは, LLaVA-v1.5-7BとLLaVA-Next-7BのTTFTを最大50.0%, 55.1%削減できることを示した。
- 参考スコア(独自算出の注目度): 14.857585045577165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have shown strong capabilities on diverse multimodal tasks. However, the large number of visual tokens output by the vision encoder severely hinders inference efficiency, and prior studies have shown that many of these tokens are not important and can therefore be safely pruned. In this work, we propose HIVTP, a training-free method to improve VLMs efficiency via hierarchical visual token pruning using a novel middle-layer-based importance score. Specifically, we utilize attention maps extracted from the middle layers of the vision encoder, which better reflect fine-grained and object-level attention, to estimate visual token importance. Based on this, we propose a hierarchical visual token pruning method to retain both globally and locally important visual tokens. Specifically, we reshape the 1-D visual token sequence output by the vision encoder into a 2-D spatial layout. In the global retaining stage, we divide the image into regions and retain tokens with higher importance scores in each region; in the local retaining stage, we then divide the image into small windows and retain the most important token in each local window. Experimental results show that our proposed method, HIVTP, can reduce the time-to-first-token (TTFT) of LLaVA-v1.5-7B and LLaVA-Next-7B by up to 50.0% and 55.1%, respectively, and improve the token generation throughput by up to 60.9% and 47.3%, without sacrificing accuracy, and even achieving improvements on certain benchmarks. Compared with prior works, HIVTP achieves better accuracy while offering higher inference efficiency.
- Abstract(参考訳): VLM(Vision-Language Models)は多様なマルチモーダルタスクにおいて強力な機能を示す。
しかし、視覚エンコーダによって出力される多数の視覚トークンは推論効率を著しく損なうものであり、以前の研究ではこれらのトークンの多くは重要ではなく、安全に切断可能であることが示されている。
本研究では,新しい中層重み付けスコアを用いた階層的視覚トークンプルーニングによるVLMの効率向上のためのトレーニング不要手法であるHIVTPを提案する。
具体的には,視覚エンコーダの中間層から抽出した注目マップを用いて,視覚的トークンの重要性を推定する。
そこで本研究では,グローバルかつ局所的に重要な視覚トークンを保持する階層的視覚トークンプルーニング手法を提案する。
具体的には、視覚エンコーダによって出力される1次元視覚トークンシーケンスを2次元空間レイアウトに変換する。
グローバル保持段階では、画像は領域に分割し、各領域においてより重要度の高いトークンを保持し、局所保持段階では、画像を小さなウィンドウに分割し、各ローカルウィンドウに最も重要なトークンを保持する。
HIVTPは, LLaVA-v1.5-7BとLLaVA-Next-7BのTTFTを最大50.0%, 55.1%削減し, トークン生成スループットを最大60.9%, 47.3%向上できることを示した。
以前の研究と比較すると、HIVTPはより精度が高く、推論効率は高い。
関連論文リスト
- HiPrune: Training-Free Visual Token Pruning via Hierarchical Attention in Vision-Language Models [6.306822764683807]
HiPruneは、ビジョンエンコーダのためのトレーニング不要でモデルに依存しないトークンプルーニングフレームワークである。
視覚エンコーダ内の階層的アテンション構造を利用する。
33.3%のトークンで99.3%のタスク精度を維持し、11.1%のトークンで99.5%の精度を維持している。
論文 参考訳(メタデータ) (2025-08-01T11:48:11Z) - VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models [57.2662376527586]
VScanは2段階のビジュアルトークン削減フレームワークである。
1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。
VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
論文 参考訳(メタデータ) (2025-05-28T17:59:08Z) - ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression [1.8893427856534721]
InternVL-Xは、性能と効率の両方で、InternVLモデルより優れている。
20%以下のビジュアルトークンを利用することで、InternVL-Xは7つのパブリックMLLMベンチマークで最先端のパフォーマンスを達成し、12タスクの平均メトリックを2.34%改善する。
論文 参考訳(メタデータ) (2025-03-27T09:31:35Z) - PLPHP: Per-Layer Per-Head Vision Token Pruning for Efficient Large Vision-Language Models [48.31941033266855]
本稿では,2レベルきめ細粒度プルーニング法PLPHPを提案する。
PLPHPはアテンションヘッドレベルでプルーニングを適用し、同じレイヤ内の異なるヘッドが独立して重要なコンテキストを保持することができる。
複数のベンチマークの実験では、PLPHPは18%高速なデコード速度を提供し、キーバリューキャッシュ(KVキャッシュ)のサイズを50%以上削減している。
論文 参考訳(メタデータ) (2025-02-20T12:31:31Z) - Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction [62.8375542401319]
MLLM(Multimodal Large Language Models)は、入力イメージを視覚トークンとしてエンコードし、それらを言語バックボーンに入力する。
画像解像度が大きくなるにつれて、視覚トークンの数は2次的に増加し、膨大な計算コストがかかる。
本稿では,各層を浅層から深層まで保持する最小限の視覚トークンを求めるために,欲求探索アルゴリズム(G-Search)を提案する。
論文 参考訳(メタデータ) (2024-11-30T18:54:32Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。