Fugu-MT 論文翻訳(概要): HIVTP: A Training-Free Method to Improve VLMs Efficiency via Hierarchical Visual Token Pruning Using Middle-Layer-Based Importance Score

論文の概要: HIVTP: A Training-Free Method to Improve VLMs Efficiency via Hierarchical Visual Token Pruning Using Middle-Layer-Based Importance Score

arxiv url: http://arxiv.org/abs/2509.23663v2
Date: Thu, 09 Oct 2025 02:02:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-10 15:34:28.72489
Title: HIVTP: A Training-Free Method to Improve VLMs Efficiency via Hierarchical Visual Token Pruning Using Middle-Layer-Based Importance Score
Title（参考訳）: HIVTP:ミドル層を用いた階層型ビジュアルトーケンプルーニングによるVLM効率向上のためのトレーニング不要手法
Authors: Jingqi Xu, Jingxi Lu, Chenghao Li, Sreetama Sarkar, Peter A. Beerel,
Abstract要約: HIVTPは、VLM(Vision-Language Models)推論効率を改善するためのトレーニング不要の手法である。本稿では,グローバルかつ局所的に重要な視覚トークンを保持するための階層的視覚トークンプルーニング手法を提案する。 HIVTPは, LLaVA-v1.5-7BとLLaVA-Next-7BのTTFTを最大50.0%, 55.1%削減できることを示した。
参考スコア（独自算出の注目度）: 14.857585045577165
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language Models (VLMs) have shown strong capabilities on diverse multimodal tasks. However, the large number of visual tokens output by the vision encoder severely hinders inference efficiency, and prior studies have shown that many of these tokens are not important and can therefore be safely pruned. In this work, we propose HIVTP, a training-free method to improve VLMs efficiency via hierarchical visual token pruning using a novel middle-layer-based importance score. Specifically, we utilize attention maps extracted from the middle layers of the vision encoder, which better reflect fine-grained and object-level attention, to estimate visual token importance. Based on this, we propose a hierarchical visual token pruning method to retain both globally and locally important visual tokens. Specifically, we reshape the 1-D visual token sequence output by the vision encoder into a 2-D spatial layout. In the global retaining stage, we divide the image into regions and retain tokens with higher importance scores in each region; in the local retaining stage, we then divide the image into small windows and retain the most important token in each local window. Experimental results show that our proposed method, HIVTP, can reduce the time-to-first-token (TTFT) of LLaVA-v1.5-7B and LLaVA-Next-7B by up to 50.0% and 55.1%, respectively, and improve the token generation throughput by up to 60.9% and 47.3%, without sacrificing accuracy, and even achieving improvements on certain benchmarks. Compared with prior works, HIVTP achieves better accuracy while offering higher inference efficiency.
Abstract（参考訳）: VLM(Vision-Language Models)は多様なマルチモーダルタスクにおいて強力な機能を示す。しかし、視覚エンコーダによって出力される多数の視覚トークンは推論効率を著しく損なうものであり、以前の研究ではこれらのトークンの多くは重要ではなく、安全に切断可能であることが示されている。本研究では,新しい中層重み付けスコアを用いた階層的視覚トークンプルーニングによるVLMの効率向上のためのトレーニング不要手法であるHIVTPを提案する。具体的には,視覚エンコーダの中間層から抽出した注目マップを用いて,視覚的トークンの重要性を推定する。そこで本研究では,グローバルかつ局所的に重要な視覚トークンを保持する階層的視覚トークンプルーニング手法を提案する。具体的には、視覚エンコーダによって出力される1次元視覚トークンシーケンスを2次元空間レイアウトに変換する。グローバル保持段階では、画像は領域に分割し、各領域においてより重要度の高いトークンを保持し、局所保持段階では、画像を小さなウィンドウに分割し、各ローカルウィンドウに最も重要なトークンを保持する。 HIVTPは, LLaVA-v1.5-7BとLLaVA-Next-7BのTTFTを最大50.0%, 55.1%削減し, トークン生成スループットを最大60.9%, 47.3%向上できることを示した。以前の研究と比較すると、HIVTPはより精度が高く、推論効率は高い。

関連論文リスト

Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文参考訳（メタデータ） (2026-02-03T00:51:03Z)
All You Need Are Random Visual Tokens? Demystifying Token Pruning in VLLMs [43.80391827200227]
ディープレイヤでは、既存のトレーニングフリープルーニング手法はランダムプルーニングに勝る。ビジュアルトークンは、ネットワーク深度の増加に伴い、徐々にサリエンスを失う。深層層での単純なランダムプルーニングは性能と効率のバランスを効果的に表す。
論文参考訳（メタデータ） (2025-12-08T14:16:01Z)
Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention [50.97683288777336]
MLLM(Multimodal Large Language Models)は、巨大な視覚トークンに依存するため、計算オーバーヘッドがかなり大きい。近年の研究では、この問題を緩和するためにトークンプルーニングが検討されている。本稿では,効率的な推論のためのビジュアルトークン・プルーニング・フレームワークであるHoloVを提案する。
論文参考訳（メタデータ） (2025-10-03T11:33:40Z)
HiPrune: Training-Free Visual Token Pruning via Hierarchical Attention in Vision-Language Models [6.306822764683807]
HiPruneは、ビジョンエンコーダのためのトレーニング不要でモデルに依存しないトークンプルーニングフレームワークである。視覚エンコーダ内の階層的アテンション構造を利用する。 33.3%のトークンで99.3%のタスク精度を維持し、11.1%のトークンで99.5%の精度を維持している。
論文参考訳（メタデータ） (2025-08-01T11:48:11Z)
VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models [57.2662376527586]
VScanは2段階のビジュアルトークン削減フレームワークである。 1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。 VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
論文参考訳（メタデータ） (2025-05-28T17:59:08Z)
Balanced Token Pruning: Accelerating Vision Language Models Beyond Local Optimization [30.73986620551153]
LVLM(Large Vision-Language Models)は、イメージを数千のトークンにエンコードすることで、マルチモーダルタスク全体で素晴らしいパフォーマンスを示している。従来のアプローチでは、トークンのプルーニングによって画像トークンの数を減らそうとしていた。本稿では,視覚トークンをプルーニングするためのプラグイン・アンド・プレイ方式であるBa balanced Token Pruning (BTP)を提案する。
論文参考訳（メタデータ） (2025-05-28T07:00:50Z)
ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-05-24T15:47:49Z)
InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression [1.8893427856534721]
InternVL-Xは、性能と効率の両方で、InternVLモデルより優れている。 20%以下のビジュアルトークンを利用することで、InternVL-Xは7つのパブリックMLLMベンチマークで最先端のパフォーマンスを達成し、12タスクの平均メトリックを2.34%改善する。
論文参考訳（メタデータ） (2025-03-27T09:31:35Z)
PLPHP: Per-Layer Per-Head Vision Token Pruning for Efficient Large Vision-Language Models [48.31941033266855]
本稿では,2レベルきめ細粒度プルーニング法PLPHPを提案する。 PLPHPはアテンションヘッドレベルでプルーニングを適用し、同じレイヤ内の異なるヘッドが独立して重要なコンテキストを保持することができる。複数のベンチマークの実験では、PLPHPは18%高速なデコード速度を提供し、キーバリューキャッシュ(KVキャッシュ)のサイズを50%以上削減している。
論文参考訳（メタデータ） (2025-02-20T12:31:31Z)
Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction [62.8375542401319]
MLLM(Multimodal Large Language Models)は、入力イメージを視覚トークンとしてエンコードし、それらを言語バックボーンに入力する。画像解像度が大きくなるにつれて、視覚トークンの数は2次的に増加し、膨大な計算コストがかかる。本稿では,各層を浅層から深層まで保持する最小限の視覚トークンを求めるために,欲求探索アルゴリズム(G-Search)を提案する。
論文参考訳（メタデータ） (2024-11-30T18:54:32Z)
FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文参考訳（メタデータ） (2024-11-21T14:22:38Z)
AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文参考訳（メタデータ） (2023-11-02T12:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。