Fugu-MT 論文翻訳(概要): Training-Free Pyramid Token Pruning for Efficient Large Vision-Language Models via Region, Token, and Instruction-Guided Importance

論文の概要: Training-Free Pyramid Token Pruning for Efficient Large Vision-Language Models via Region, Token, and Instruction-Guided Importance

arxiv url: http://arxiv.org/abs/2509.15704v1
Date: Fri, 19 Sep 2025 07:28:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-22 18:18:11.051118
Title: Training-Free Pyramid Token Pruning for Efficient Large Vision-Language Models via Region, Token, and Instruction-Guided Importance
Title（参考訳）: 地域, トークン, 指導指導要領を通した高能率視力言語モデルのための無訓練ピラミッドトケンプルーニング
Authors: Yuxuan Liang, Xu Li, Xiaolei Chen, Yi Zheng, Haotian Chen, Bin Li, Xiangyang Xue,
Abstract要約: 近年のアプローチでは、高解像度画像を複数のサブイメージに分割し、視覚トークンの数を劇的に増やしている。本稿では,各領域とトークンレベルにおいてボトムアップのビジュアル・サリエンシを統合した,トレーニングフリーなトークン・プルーニング戦略を提案する。提案手法は,性能損失を最小限に抑えながら,計算オーバーヘッドと推論遅延を大幅に低減する。
参考スコア（独自算出の注目度）: 60.028070589466445
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Vision-Language Models (LVLMs) have significantly advanced multimodal understanding but still struggle with efficiently processing high-resolution images. Recent approaches partition high-resolution images into multiple sub-images, dramatically increasing the number of visual tokens and causing exponential computational overhead during inference. To address these limitations, we propose a training-free token pruning strategy, Pyramid Token Pruning (PTP), that integrates bottom-up visual saliency at both region and token levels with top-down instruction-guided importance. Inspired by human visual attention mechanisms, PTP selectively retains more tokens from visually salient regions and further leverages textual instructions to pinpoint tokens most relevant to specific multimodal tasks. Extensive experiments across 13 diverse benchmarks demonstrate that our method substantially reduces computational overhead and inference latency with minimal performance loss.
Abstract（参考訳）: LVLM(Large Vision-Language Models)は、非常に高度なマルチモーダル理解を持つが、高解像度画像の効率的な処理に苦慮している。最近のアプローチでは、高解像度画像を複数のサブイメージに分割し、視覚トークンの数を劇的に増加させ、推論中に指数的な計算オーバーヘッドを引き起こす。これらの制約に対処するため,Praamid Token Pruning (PTP) という,トップダウンの指導指導が重要となる領域とトークンレベルのボトムアップ視覚的サリエンシを統合した,トレーニングフリーなトークンプルーニング戦略を提案する。人間の視覚的注意機構にインスパイアされたPTPは、視覚的に正常な領域からより多くのトークンを選択的に保持し、さらにテキスト命令を利用して特定のマルチモーダルタスクに関連するトークンをピンポイントする。 13種類のベンチマークによる大規模な実験により,本手法は性能損失を最小限に抑え,計算オーバーヘッドと推論遅延を大幅に低減することを示した。

関連論文リスト

CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文参考訳（メタデータ） (2025-08-24T07:47:00Z)
Revisit What You See: Disclose Language Prior in Vision Tokens for Efficient Guided Decoding of LVLMs [8.97780713904412]
本稿では、視覚トークンを参照してLVLM(Large Vision-Language Models)におけるテキスト生成プロセスのガイドを行う、シンプルで効果的な復号法であるReVisiTを紹介する。提案手法は,テキストトークン分布空間に投影し,制約付き発散最小化により,各復号ステップにおいて最も関連性の高い視覚トークンを動的に選択することにより,視覚トークン内に埋め込まれた意味情報を活用する。
論文参考訳（メタデータ） (2025-06-11T08:46:55Z)
Balanced Token Pruning: Accelerating Vision Language Models Beyond Local Optimization [41.348344287815436]
LVLM(Large Vision-Language Models)は、イメージを数千のトークンにエンコードすることで、マルチモーダルタスク全体で素晴らしいパフォーマンスを示している。従来のアプローチでは、トークンのプルーニングによって画像トークンの数を減らそうとしていた。本稿では,視覚トークンをプルーニングするためのプラグイン・アンド・プレイ方式であるBa balanced Token Pruning (BTP)を提案する。
論文参考訳（メタデータ） (2025-05-28T07:00:50Z)
Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。 MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文参考訳（メタデータ） (2024-11-26T09:36:02Z)
FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文参考訳（メタデータ） (2024-11-21T14:22:38Z)
Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。