論文の概要: LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2403.15388v2
- Date: Mon, 25 Mar 2024 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 22:51:48.542131
- Title: LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models
- Title(参考訳): LLaVA-PruMerge: 効率的な大規模マルチモーダルモデルのための適応的トークン削減
- Authors: Yuzhang Shang, Mu Cai, Bingxin Xu, Yong Jae Lee, Yan Yan,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大規模言語モデルとを接続することで、重要な推論能力を示している。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
そこで我々はPruMergeを提案する。PruMergeは適応型視覚トークン削減手法で、比較モデルの性能を維持しながら、視覚トークンの数を大幅に削減する。
- 参考スコア(独自算出の注目度): 35.88374542519597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) have shown significant reasoning capabilities by connecting a visual encoder and a large language model. LMMs typically use a fixed amount of visual tokens, such as the penultimate layer features in the CLIP visual encoder, as the prefix content. Recent LMMs incorporate more complex visual inputs, such as high-resolution images and videos, which increase the number of visual tokens significantly. However, due to the design of the Transformer architecture, computational costs associated with these models tend to increase quadratically with the number of input tokens. To tackle this problem, we explore a token reduction mechanism and find, similar to prior work, that many visual tokens are spatially redundant. Based on this, we propose PruMerge, a novel adaptive visual token reduction approach, which largely reduces the number of visual tokens while maintaining comparable model performance. We first select the unpruned visual tokens based on their similarity to class tokens and spatial tokens. We then cluster the pruned tokens based on key similarity and merge the clustered tokens with the unpruned tokens to supplement their information. Empirically, when applied to LLaVA-1.5, our approach can compress the visual tokens by 18 times on average, and achieve comparable performance across diverse visual question-answering and reasoning tasks. Code and checkpoints are at https://llava-prumerge.github.io/.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大規模言語モデルとを接続することで、重要な推論能力を示している。
LMMは通常、プレフィックスの内容としてCLIPビジュアルエンコーダのペナルティ層機能など、一定量のビジュアルトークンを使用する。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
しかし、Transformerアーキテクチャの設計により、これらのモデルに関連する計算コストは入力トークンの数によって2次的に増加する傾向にある。
この問題に対処するため,トークン低減機構を探索し,多くの視覚的トークンが空間的に冗長であることを示す。
そこで我々はPruMergeを提案する。PruMergeは適応型ビジュアルトークン削減手法で、比較モデルの性能を維持しながら、視覚トークンの数を大幅に削減する。
まず、クラストークンと空間トークンとの類似性に基づいて、未実行の視覚トークンを選択する。
次に、キーの類似性に基づいてプルーンドトークンをクラスタ化し、クラスタ化されたトークンと未実行トークンをマージして、情報を補完します。
LLaVA-1.5に適用した場合、我々の手法は平均18倍の視覚トークンを圧縮し、多様な視覚的質問応答および推論タスクに匹敵する性能を達成できる。
コードとチェックポイントはhttps://llava-prumerge.github.io/にある。
関連論文リスト
- FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See [37.7015406019386]
MLLM(Multimodal Large Language Models)は、視覚エンコーダからの視覚トークンをテキストトークンとして扱う。
トークンの数が増加するにつれて、LLMにおける計算の2次スケーリングは効率のボトルネックをもたらす。
本研究では,LLaVAにおけるパラメータと計算パターンの両レベルでの視覚計算の冗長性について検討する。
論文 参考訳(メタデータ) (2024-10-08T16:13:24Z) - AVG-LLaVA: A Large Multimodal Model with Adaptive Visual Granularity [85.44800864697464]
入力画像と命令に基づいて適切な視覚的粒度を適応的に選択できるLMMであるAVG-LLaVAを導入する。
AVG-LLaVAは11のベンチマークで優れた性能を示し、視覚トークンの数を大幅に削減し、推論を高速化する。
論文 参考訳(メタデータ) (2024-09-20T10:50:21Z) - Balancing Performance and Efficiency: A Multimodal Large Language Model Pruning Method based Image Text Interaction [6.467840081978855]
マルチモーダル大規模言語モデル(MM-LLM)は多くのマルチモーダルタスクにおいて大きな成功を収めているが、その高い計算コストはさらなる促進と応用を制限している。
MM-LLMの視覚的トークンについて検討し,この問題に対処するための動的プルーニングアルゴリズムを設計した。
提案手法は,平均22%のトークン量を使用する場合,元のトークン量と競合する性能を実現する。
論文 参考訳(メタデータ) (2024-09-02T10:49:10Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Visual Perception by Large Language Model's Weights [34.34876575183736]
本稿では,視覚情報をモデル重みとして表現するパラメータ空間アライメントパラダイムを提案する。
各入力画像に対して、視覚的特徴を抽出し、特徴を知覚重みに変換し、知覚重みとLLMの重みをマージする視覚エンコーダを用いる。
このようにして、LLMの入力は視覚トークンを必要としないため、入力シーケンスの長さが小さくなり、効率が大幅に向上する。
論文 参考訳(メタデータ) (2024-05-30T17:59:47Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
私たちのアプローチは、私たちが観察した2つの興味深い現象にインスピレーションを受けています。
我々のVTWアプローチは、性能を維持しながら、様々なマルチモーダルタスクで計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。