論文の概要: Balanced Token Pruning: Accelerating Vision Language Models Beyond Local Optimization
- arxiv url: http://arxiv.org/abs/2505.22038v1
- Date: Wed, 28 May 2025 07:00:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.458536
- Title: Balanced Token Pruning: Accelerating Vision Language Models Beyond Local Optimization
- Title(参考訳): Balanced Token Pruning: ローカル最適化を超えたビジョン言語モデルの高速化
- Authors: Kaiyuan Li, Xiaoyue Chen, Chen Gao, Yong Li, Xinlei Chen,
- Abstract要約: LVLM(Large Vision-Language Models)は、イメージを数千のトークンにエンコードすることで、マルチモーダルタスク全体で素晴らしいパフォーマンスを示している。
従来のアプローチでは、トークンのプルーニングによって画像トークンの数を減らそうとしていた。
本稿では,視覚トークンをプルーニングするためのプラグイン・アンド・プレイ方式であるBa balanced Token Pruning (BTP)を提案する。
- 参考スコア(独自算出の注目度): 41.348344287815436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have shown impressive performance across multi-modal tasks by encoding images into thousands of tokens. However, the large number of image tokens results in significant computational overhead, and the use of dynamic high-resolution inputs further increases this burden. Previous approaches have attempted to reduce the number of image tokens through token pruning, typically by selecting tokens based on attention scores or image token diversity. Through empirical studies, we observe that existing methods often overlook the joint impact of pruning on both the current layer's output (local) and the outputs of subsequent layers (global), leading to suboptimal pruning decisions. To address this challenge, we propose Balanced Token Pruning (BTP), a plug-and-play method for pruning vision tokens. Specifically, our method utilizes a small calibration set to divide the pruning process into multiple stages. In the early stages, our method emphasizes the impact of pruning on subsequent layers, whereas in the deeper stages, the focus shifts toward preserving the consistency of local outputs. Extensive experiments across various LVLMs demonstrate the broad effectiveness of our approach on multiple benchmarks. Our method achieves a 78% compression rate while preserving 96.7% of the original models' performance on average.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、イメージを数千のトークンにエンコードすることで、マルチモーダルタスク全体で素晴らしいパフォーマンスを示している。
しかし、大量の画像トークンが計算オーバーヘッドを増大させ、ダイナミックな高解像度入力を使用することにより、この負担が増大する。
従来のアプローチでは、トークンのプルーニングによって、注意スコアや画像トークンの多様性に基づいてトークンを選択することで、画像トークンの数を削減しようとしてきた。
実験的な研究を通じて、既存の手法は、しばしば現在のレイヤの出力(ローカル)とその後のレイヤ(グローバル)の出力の両方にプルーニングの合同的影響を見落とし、最適プルーニング決定につながることを観察する。
この課題に対処するために、視覚トークンのプルーニングのためのプラグアンドプレイ方式であるBa balanced Token Pruning (BTP)を提案する。
具体的には,プルーニング過程を複数の段階に分割するために,小さなキャリブレーションセットを用いる。
初期において,本手法は後続の層へのプルーニングの影響を強調する一方で,より深い段階においては,局所的な出力の一貫性の維持に焦点が移る。
様々なLVLMに対して大規模な実験を行い、複数のベンチマークに対するアプローチの有効性を実証した。
本手法は,従来のモデルの性能の96.7%を平均で保存しながら,圧縮率を78%向上させる。
関連論文リスト
- ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - LVLM_CSP: Accelerating Large Vision Language Models via Clustering, Scattering, and Pruning for Reasoning Segmentation [10.614327633823462]
大規模視覚言語モデル(LVLM)は、推論セグメンテーションタスクの実行において視覚基盤モデルを導くために広く採用されている。
本研究では,LVLMに基づく推論セグメンテーションタスクに特化して設計された,新しい学習自由な視覚トークンプルーニング手法であるLVLM_CSPを提案する。
論文 参考訳(メタデータ) (2025-04-15T04:27:15Z) - Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models [85.51753014478315]
本稿では,新しいプラグ・アンド・プレイ・トレーニングフリープルーニング手法であるAdaptPruneを紹介する。
空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで、従来の注意に基づくプルーニングに基づいている。
当社のアプローチはトークンの重要性を総合的に評価することを保証するとともに,プルーニング決定を大幅に改善する。
論文 参考訳(メタデータ) (2025-03-11T03:58:17Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Sparsity Meets Similarity: Leveraging Long-Tail Distribution for Dynamic Optimized Token Representation in Multimodal Large Language Models [6.467840081978855]
マルチモーダル大言語モデル(MM-LLM)は様々なタスクで大きな成功を収めた。
主な計算負担は、処理されたテキストと視覚トークンから生じる。
視覚的CLSトークン類似度曲線の屈折点を同定する動的プルーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-02T10:49:10Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。