論文の概要: [CLS] Attention is All You Need for Training-Free Visual Token Pruning: Make VLM Inference Faster
- arxiv url: http://arxiv.org/abs/2412.01818v1
- Date: Mon, 02 Dec 2024 18:57:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:49:48.696986
- Title: [CLS] Attention is All You Need for Training-Free Visual Token Pruning: Make VLM Inference Faster
- Title(参考訳): VLM推論を高速化する [CLS] トレーニング不要のビジュアルトーケンプルーニングに必要なすべて
- Authors: Qizhe Zhang, Aosong Cheng, Ming Lu, Zhiyong Zhuo, Minqi Wang, Jiajun Cao, Shaobo Guo, Qi She, Shanghang Zhang,
- Abstract要約: 大規模言語モデル(LLM)におけるテキスト・ビジュアル・クロスアテンションに基づく視覚トークンの重要性を評価する既存手法
我々は、視覚的トークンの重要性をより正確に評価する、トレーニング不要な視覚的トークンプルーニング手法であるFasterVLMを紹介した。
FasterVLMは、LLaVA-1.5-7Bの性能の90%を維持しながら、95%の視覚トークンをプルーする。
- 参考スコア(独自算出の注目度): 26.025260449905577
- License:
- Abstract: Large vision-language models (VLMs) often rely on a substantial number of visual tokens when interacting with large language models (LLMs), which has proven to be inefficient. Recent efforts have aimed to accelerate VLM inference by pruning visual tokens. Most existing methods assess the importance of visual tokens based on the text-visual cross-attentions in LLMs. In this study, we find that the cross-attentions between text and visual tokens in LLMs are inaccurate. Pruning tokens based on these inaccurate attentions leads to significant performance degradation, especially at high reduction ratios. To this end, we introduce FasterVLM, a simple yet effective training-free visual token pruning method that evaluates the importance of visual tokens more accurately by utilizing attentions between the [CLS] token and image tokens from the visual encoder. Since FasterVLM eliminates redundant visual tokens immediately after the visual encoder, ensuring they do not interact with LLMs and resulting in faster VLM inference. It is worth noting that, benefiting from the accuracy of [CLS] cross-attentions, FasterVLM can prune 95\% of visual tokens while maintaining 90\% of the performance of LLaVA-1.5-7B. We apply FasterVLM to various VLMs, including LLaVA-1.5, LLaVA-NeXT, and Video-LLaVA, to demonstrate its effectiveness. Experimental results show that our FasterVLM maintains strong performance across various VLM architectures and reduction ratios, significantly outperforming existing text-visual attention-based methods. Our code is available at https://github.com/Theia-4869/FasterVLM.
- Abstract(参考訳): 大規模な視覚言語モデル (VLM) は、大きな言語モデル (LLM) と対話する際にかなりの数の視覚トークンに依存しており、これは非効率であることが証明されている。
近年の取り組みは、視覚トークンのプルーニングによるVLM推論の高速化を目的としている。
LLMにおけるテキスト・ビジュアル・クロスアテンションに基づく視覚トークンの重要性を評価する方法がほとんどである。
本研究では,LLMにおけるテキストと視覚トークン間の交差注意が不正確なことを明らかにする。
これらの不正確な注意に基づくプルーニングトークンは、特に高い還元率で顕著な性能低下をもたらす。
この目的のために我々は,CLSトークンとビジュアルエンコーダからの画像トークンとの注意を生かして,視覚トークンの重要性をより正確に評価する,シンプルで効果的なトレーニング不要なビジュアルトークンプルーニング手法であるFasterVLMを紹介した。
FasterVLMは視覚エンコーダの直後に冗長な視覚トークンを排除し、LSMと相互作用しないことを保証し、より高速なVLM推論を実現する。
なお、[CLS]クロスアテンションの正確さから、FasterVLMは、LLaVA-1.5-7Bのパフォーマンスの90%を維持しながら、95%の視覚トークンをプルーすることが出来る。
我々は,LLaVA-1.5,LLaVA-NeXT,Video-LLaVAなどの様々なVLMにFasterVLMを適用し,その効果を実証する。
実験結果から,FasterVLMは様々なVLMアーキテクチャにまたがって高い性能を保ち,既存のテキスト・ビジュアル・アテンション・ベースの手法を著しく上回っていることが明らかとなった。
私たちのコードはhttps://github.com/Theia-4869/FasterVLM.comで公開されています。
関連論文リスト
- [CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。
しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。
本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-12-08T05:29:39Z) - FlashSloth: Lightning Multimodal Large Language Models via Embedded Visual Compression [76.01465333271229]
マルチモーダルな大言語モデル(MLLM)は、実用的な用途において、スロットのように振る舞う。
近年の取り組みは、より効率よく小さなMLLMを構築することに集中しているが、視覚トークンの多さは、実際のスピードアップを制限している。
本稿ではFlashSlothと呼ばれる強力で高速な小型MLLMを提案する。
論文 参考訳(メタデータ) (2024-12-05T16:34:07Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference [45.11612407862277]
視覚言語モデル (VLM) では、視覚トークンはテキストトークンと比較して情報量が多すぎるにもかかわらず、計算オーバーヘッドがかなり大きい。
本稿では、余分なパラメータや微調整コストを不要とするSparseVLMと呼ばれるテキスト誘導型トレーニングフリートークン最適化機構を提案する。
論文 参考訳(メタデータ) (2024-10-06T09:18:04Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。