論文の概要: Balancing Performance and Efficiency: A Multimodal Large Language Model Pruning Method based Image Text Interaction
- arxiv url: http://arxiv.org/abs/2409.01162v1
- Date: Mon, 2 Sep 2024 10:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 07:13:03.189072
- Title: Balancing Performance and Efficiency: A Multimodal Large Language Model Pruning Method based Image Text Interaction
- Title(参考訳): 性能と効率のバランスをとる:画像テキストの相互作用に基づく多モーダル大言語モデルプルーニング法
- Authors: Gaotong Yu, Yi Chen, Jian Xu,
- Abstract要約: マルチモーダル大規模言語モデル(MM-LLM)は多くのマルチモーダルタスクにおいて大きな成功を収めているが、その高い計算コストはさらなる促進と応用を制限している。
MM-LLMの視覚的トークンについて検討し,この問題に対処するための動的プルーニングアルゴリズムを設計した。
提案手法は,平均22%のトークン量を使用する場合,元のトークン量と競合する性能を実現する。
- 参考スコア(独自算出の注目度): 6.467840081978855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, multimodal large language models (MM-LLMs) have achieved great success in many multimodal tasks, but their high computational costs limit their further promotion and application. In the MM-LLMs framework, the main computational consumption step is the processing of concatenated text and visual tokens at the LLM layer. The length of the input token for LLM directly affects the overall training and inference efficiency. In response to this issue, we further studied the visual tokens of MM-LLMs. We found that the similarity between visual and CLS tokens in the visual encoder follows a long-tail distribution. In other words, only a few visual tokens are highly similar to CLS tokens. Therefore, we designed a dynamic pruning algorithm to address this issue. Firstly, for different input samples, we search for the inflection point of their visual CLS token similarity curve and use it as the corresponding segmentation point to trim the visual markers. This process mainly reduces the output of the visual encoder to accelerate the model. Then, in the LLM layer, the concatenated visual text tokens are pruned for the second time. During this process, due to the interaction between visual and textual features, visual and textual tokens with low text correlation are further filtered, achieving a balance between efficiency and performance. The results on multiple datasets show that our proposed method can achieve performance that competes with the original performance when using an average of 22% of the original token quantity. Our source code will be made publicly available following acceptance.
- Abstract(参考訳): 近年,多モーダル大規模言語モデル (MM-LLM) は多モーダルタスクにおいて大きな成功を収めている。
MM-LLMsフレームワークでは、LLM層における連結テキストと視覚トークンの処理が主な計算消費ステップである。
LLMの入力トークンの長さは、全体的なトレーニングと推論効率に直接影響を及ぼす。
そこで本研究では,MM-LLMの視覚的トークンについて検討した。
その結果,視覚エンコーダにおける視覚トークンとCLSトークンの類似性は,長いテール分布に従うことがわかった。
言い換えれば、少数の視覚トークンだけがCLSトークンと非常によく似ている。
そこで我々は,この問題に対処する動的プルーニングアルゴリズムを設計した。
まず、異なる入力サンプルに対して、視覚的CLSトークン類似度曲線の屈折点を探索し、対応するセグメンテーション点として使用し、視覚マーカーをトリミングする。
このプロセスは、主に視覚エンコーダの出力を減らし、モデルを加速する。
そして、LLM層において、連結された視覚テキストトークンを2度目のプルーニングを行う。
この過程で、視覚的特徴とテキスト的特徴の相互作用により、テキスト相関の低い視覚的トークンとテキスト的トークンはさらにフィルタリングされ、効率と性能のバランスがとれる。
複数のデータセットから得られた結果から,提案手法は元のトークン量の平均22%を使用する場合,元のトークン量と競合する性能を達成できることが示唆された。
私たちのソースコードは受理後、公開されます。
関連論文リスト
- Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Retrieval Replace Reduction: An effective visual token reduction method via semantic match [32.33892531885448]
textbfTRSM (textbfToken textbfReduction via textbfSemantic textbfMatch)を導入し,MLLMの性能を損なうことなく視覚トークンの数を効果的に削減する。
TRSMは、人間がマルチモーダルタスクを処理する方法に触発され、あるモダリティから意味情報を活用して、関連するセマンティクスを別のモダリティにマッチさせ、視覚トークンの数を減らす。
実験結果に基づいて,視覚的トークンを20%圧縮し,多様な視覚的質問応答タスクと推論タスクに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2024-10-09T07:13:22Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的参照を注入する学習自由手法を提案する。
MLLMにおけるテキストプロンプトトークンと視覚トークンの関係を観察する。
我々は,エネルギー関数に基づいて学習可能な視覚トークンを最適化し,注目マップにおける参照領域の強度を高める。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z) - TokenPacker: Efficient Visual Projector for Multimodal LLM [37.1071749188282]
ビジュアルプロジェクタは、ビジュアルエンコーダとLarge Language Model(LLM)の間に必須のブリッジとして機能する。
本稿では,密集した特徴を注入して凝縮した視覚トークンを生成するために,粗く細かなスキームを取り入れた新しいビジュアルプロジェクタを提案する。
我々のアプローチでは、ビジュアルトークンを75%89%圧縮し、多様なベンチマークで同等またはさらに優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-02T16:10:55Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Seeing the Image: Prioritizing Visual Correlation by Contrastive Alignment [40.63340635482609]
視覚言語モデル(VLM)における既存の画像-テキストのモダリティアライメントは、各テキストトークンを自己回帰的に等しく扱う。
我々は、その視覚的相関に基づいて、各テキストトークンに対して異なるコントリビューションを割り当てることを提唱する。
コントラストアライメント(Contrastive ALignment, CAL)は、視覚的に相関したトークンのトレーニングを優先する、シンプルで効果的な再重み付け戦略である。
論文 参考訳(メタデータ) (2024-05-28T06:44:13Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
私たちのアプローチは、私たちが観察した2つの興味深い現象にインスピレーションを受けています。
我々のVTWアプローチは、性能を維持しながら、様々なマルチモーダルタスクで計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。