論文の概要: Multi-Stage Vision Token Dropping: Towards Efficient Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2411.10803v1
- Date: Sat, 16 Nov 2024 13:45:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:33:25.714727
- Title: Multi-Stage Vision Token Dropping: Towards Efficient Multimodal Large Language Model
- Title(参考訳): マルチステージビジョントークンドロップ:効率的なマルチモーダル大言語モデルを目指して
- Authors: Ting Liu, Liangtao Shi, Richang Hong, Yue Hu, Quanjun Yin, Linfeng Zhang,
- Abstract要約: ライフサイクル全体から各トークンの重要性を測定するため,マルチステージトークンドロップ(MustDrop)を提案する。
MustDropはLLaVAで約88.5%のFLOPを削減し、圧縮比は92.2%である。
- 参考スコア(独自算出の注目度): 45.01871133425388
- License:
- Abstract: The vision tokens in multimodal large language models usually exhibit significant spatial and temporal redundancy and take up most of the input tokens, which harms their inference efficiency. To solve this problem, some recent works were introduced to drop the unimportant tokens during inference where the importance of each token is decided only by the information in either the vision encoding stage or the prefilling stage. In this paper, we propose Multi-stage Token Dropping (MustDrop) to measure the importance of each token from the whole lifecycle, including the vision encoding stage, prefilling stage, and decoding stage. Concretely, in the visual encoding stage, MustDrop merges spatially adjacent tokens with high similarity, and establishes a key token set to retain the most vision-critical tokens, preventing them from being discarded in later stages. In the prefilling stage, MustDrop further compresses vision tokens by the guidance of text semantics, with a dual-attention filtering strategy. In the decoding stage, an output-aware cache policy is proposed to further reduce the size of the KV cache. By leveraging tailored strategies in the multi-stage process, MustDrop can more precisely recognize the important and redundant tokens, thus achieving an optimal balance between performance and efficiency. For instance, MustDrop reduces about 88.5\% FLOPs on LLaVA with a compression ratio of 92.2\% while maintaining comparable accuracy. Our codes are available at \url{https://github.com/liuting20/MustDrop}.
- Abstract(参考訳): マルチモーダルな言語モデルにおける視覚トークンは、通常、空間的および時間的冗長性を示し、ほとんどの入力トークンを取り込み、推論効率を損なう。
この問題を解決するため、近年では、各トークンの重要性が、視覚エンコーディングステージまたはプリフィルステージの情報によってのみ決定される推論において、重要でないトークンをドロップする作業が導入されている。
本稿では,ビジョンエンコーディングステージ,プリフィルステージ,デコードステージを含むライフサイクル全体から,トークンの重要性を測定するために,マルチステージトークンドロップ(MustDrop)を提案する。
具体的には、視覚的エンコーディング段階では、MustDropは空間的に隣接したトークンを高い類似性でマージし、最も視覚クリティカルなトークンを保持するキートークンセットを確立し、後段で破棄されるのを防ぐ。
プリフィルの段階では、MustDropはテキストセマンティクスのガイダンスによって視覚トークンをさらに圧縮し、二重アテンションフィルタリング戦略を使用する。
復号段階では、KVキャッシュのサイズをさらに小さくするために出力対応キャッシュポリシーが提案されている。
マルチステージプロセスで調整された戦略を活用することで、MustDropは重要かつ冗長なトークンをより正確に認識し、パフォーマンスと効率の最適なバランスを達成することができる。
例えば、MustDrop は LLaVA 上の 88.5\% のFLOP を 92.2\% の圧縮比で削減する。
私たちのコードは \url{https://github.com/liuting20/MustDrop} で利用可能です。
関連論文リスト
- ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference [45.11612407862277]
視覚言語モデル(VLM)では、視覚トークンは通常かなりの計算オーバーヘッドを消費する。
本稿では、余分なパラメータや微調整コストを伴わずに、SparseVLMと呼ばれる効率的なトレーニングフリートークン最適化機構を提案する。
実験結果から,SparseVLMは画像理解タスクや映像理解タスクにおいて,様々なVLMの効率を向上することが示された。
論文 参考訳(メタデータ) (2024-10-06T09:18:04Z) - ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
私たちのアプローチは、私たちが観察した2つの興味深い現象にインスピレーションを受けています。
我々のVTWアプローチは、性能を維持しながら、様々なマルチモーダルタスクで計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - Efficient Streaming Language Models with Attention Sinks [72.20260088848987]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。
StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文 参考訳(メタデータ) (2023-09-29T17:59:56Z) - Beyond Attentive Tokens: Incorporating Token Importance and Diversity
for Efficient Vision Transformers [32.972945618608726]
視覚変換器は様々な視覚タスクにおいて大幅に改善されているが、トークン間の2次相互作用は計算効率を大幅に低下させた。
本稿では,トークン分離におけるトークンの重要性と多様性を共同で検討できる,効率的なトークン分離とマージ手法を提案する。
FLOPを40%削減した後,DeiT-Tの精度を0.1%向上させることができる。
論文 参考訳(メタデータ) (2022-11-21T09:57:11Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。