論文の概要: Beyond Text-Visual Attention: Exploiting Visual Cues for Effective Token Pruning in VLMs
- arxiv url: http://arxiv.org/abs/2412.01818v2
- Date: Sun, 11 May 2025 17:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 14:13:12.675338
- Title: Beyond Text-Visual Attention: Exploiting Visual Cues for Effective Token Pruning in VLMs
- Title(参考訳): テキスト・ビジュアル・アテンションを超えて: VLMにおける効果的なトーケン・プルーニングのためのビジュアル・キューの爆発
- Authors: Qizhe Zhang, Aosong Cheng, Ming Lu, Renrui Zhang, Zhiyong Zhuo, Jiajun Cao, Shaobo Guo, Qi She, Shanghang Zhang,
- Abstract要約: 大規模視覚言語モデル(LVLM)は一般的に、テキストのトークンよりもはるかに多くの視覚トークンを含んでいる。
LVLMにおけるより効果的なトークンプルーニングに視覚的手がかりを利用するプラグイン・アンド・プレイ方式であるVisPrunerを提案する。
その結果, VisPruner は LLaVA-1.5-7B の FLOP を 91% 削減し, 推論遅延を 75% 削減できることを示した。
- 参考スコア(独自算出の注目度): 34.3615740255575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (LVLMs) generally contain significantly more visual tokens than their textual counterparts, resulting in a considerable computational burden. Recent efforts have been made to tackle this issue by pruning visual tokens early within the language model. Most existing works use attention scores between text and visual tokens to assess the importance of visual tokens. However, in this study, we first analyze the text-visual attention in the language model and find that this score is not an ideal indicator for token pruning. Based on the analysis, We propose VisPruner, a plug-and-play method that utilizes visual cues for more effective token pruning in LVLMs. Specifically, we first use visual attention to select a limited number of significant tokens. Then, we remove duplicate tokens from the remaining ones based on their similarity. By retaining diverse tokens alongside the initially selected important tokens, we maximally preserve the visual information of the input image. Experimental results demonstrate that our VisPruner sustains strong performance across various VLM architectures and reduction ratios, significantly outperforming existing methods based on text-visual attention. Notably, without any training, VisPruner can reduce the FLOPs of LLaVA-1.5-7B by 91% and inference latency by 75%, while maintaining comparable performance. Our code is available at https://github.com/Theia-4869/VisPruner.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は一般的にテキストよりもはるかに多くの視覚トークンを含んでいるため、計算上の負担が大きい。
最近の取り組みでは、言語モデル内で視覚トークンを初期化することでこの問題に対処している。
既存の作品の多くは、視覚トークンの重要性を評価するために、テキストと視覚トークンの間の注意スコアを使用している。
しかし,本稿ではまず,言語モデルにおけるテキスト・ビジュアル・アテンションを分析し,このスコアがトークン・プルーニングの理想的な指標ではないことを明らかにした。
この分析に基づき,LVLMにおけるより効率的なトークンプルーニングに視覚的手がかりを利用するプラグイン・アンド・プレイ方式であるVisPrunerを提案する。
具体的には、まず視覚的注意を使って、限られた数の重要なトークンを選択します。
そして、類似性に基づいて、残りのトークンから重複トークンを除去する。
選択された重要なトークンとともに多様なトークンを保持することにより、入力画像の視覚情報を最大限に保存する。
実験の結果,VesPruner は様々な VLM アーキテクチャにまたがって高い性能を保ち,テキスト・ビジュアル・アテンションに基づく既存手法よりも優れていた。
トレーニングなしでは、VisPrunerはLLaVA-1.5-7BのFLOPを91%削減し、推論遅延を75%削減できる。
私たちのコードはhttps://github.com/Theia-4869/VisPruner.comで公開されています。
関連論文リスト
- Window Token Concatenation for Efficient Visual Large Language Models [59.6094005814282]
視覚的大言語モデル(VLLM)における視覚トークンを減らすために,ウィンドウトークン結合(WiCo)を提案する。
WiCoグループはさまざまなトークンをひとつに分類し、いくつかの細かい詳細を曖昧にします。
我々はLLaVA-1.5とShikraをベースとした粗くきめ細かな視覚的理解タスクについて広範囲に実験を行い、既存のトークン低減プロジェクタと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2025-04-05T02:32:58Z) - [CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。
しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。
本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-12-08T05:29:39Z) - FlashSloth: Lightning Multimodal Large Language Models via Embedded Visual Compression [76.01465333271229]
マルチモーダルな大言語モデル(MLLM)は、実用的な用途において、スロットのように振る舞う。
近年の取り組みは、より効率よく小さなMLLMを構築することに集中しているが、視覚トークンの多さは、実際のスピードアップを制限している。
本稿ではFlashSlothと呼ばれる強力で高速な小型MLLMを提案する。
論文 参考訳(メタデータ) (2024-12-05T16:34:07Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference [45.11612407862277]
視覚言語モデル(VLM)では、視覚トークンは通常かなりの計算オーバーヘッドを消費する。
本稿では、余分なパラメータや微調整コストを伴わずに、SparseVLMと呼ばれる効率的なトレーニングフリートークン最適化機構を提案する。
実験結果から,SparseVLMは画像理解タスクや映像理解タスクにおいて,様々なVLMの効率を向上することが示された。
論文 参考訳(メタデータ) (2024-10-06T09:18:04Z) - Balancing Performance and Efficiency: A Multimodal Large Language Model Pruning Method based Image Text Interaction [6.467840081978855]
マルチモーダル大規模言語モデル(MM-LLM)は多くのマルチモーダルタスクにおいて大きな成功を収めているが、その高い計算コストはさらなる促進と応用を制限している。
MM-LLMの視覚的トークンについて検討し,この問題に対処するための動的プルーニングアルゴリズムを設計した。
提案手法は,平均22%のトークン量を使用する場合,元のトークン量と競合する性能を実現する。
論文 参考訳(メタデータ) (2024-09-02T10:49:10Z) - TokenPacker: Efficient Visual Projector for Multimodal LLM [37.1071749188282]
ビジュアルプロジェクタは、ビジュアルエンコーダとLarge Language Model(LLM)の間に必須のブリッジとして機能する。
本稿では,密集した特徴を注入して凝縮した視覚トークンを生成するために,粗く細かなスキームを取り入れた新しいビジュアルプロジェクタを提案する。
我々のアプローチでは、ビジュアルトークンを75%89%圧縮し、多様なベンチマークで同等またはさらに優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-02T16:10:55Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。