論文の概要: DivPrune: Diversity-based Visual Token Pruning for Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2503.02175v1
- Date: Tue, 04 Mar 2025 01:33:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:26:00.879542
- Title: DivPrune: Diversity-based Visual Token Pruning for Large Multimodal Models
- Title(参考訳): DivPrune: 大規模マルチモーダルモデルのための多様性に基づくビジュアルトーケンプルーニング
- Authors: Saeed Ranjbar Alvar, Gursimran Singh, Mohammad Akbari, Yong Zhang,
- Abstract要約: LMM(Large Multimodal Models)にビジュアルトークンを追加すると、トークンの総数は数千に増加する。
この問題に対処するため、視覚的トークンの一部を除去するトークンプルーニング手法が提案されている。
提案手法であるDivPruneは冗長性を低減し,選択したトークンの最大多様性を実現する。
- 参考スコア(独自算出の注目度): 13.519389777060226
- License:
- Abstract: Large Multimodal Models (LMMs) have emerged as powerful models capable of understanding various data modalities, including text, images, and videos. LMMs encode both text and visual data into tokens that are then combined and processed by an integrated Large Language Model (LLM). Including visual tokens substantially increases the total token count, often by thousands. The increased input length for LLM significantly raises the complexity of inference, resulting in high latency in LMMs. To address this issue, token pruning methods, which remove part of the visual tokens, are proposed. The existing token pruning methods either require extensive calibration and fine-tuning or rely on suboptimal importance metrics which results in increased redundancy among the retained tokens. In this paper, we first formulate token pruning as Max-Min Diversity Problem (MMDP) where the goal is to select a subset such that the diversity among the selected {tokens} is maximized. Then, we solve the MMDP to obtain the selected subset and prune the rest. The proposed method, DivPrune, reduces redundancy and achieves the highest diversity of the selected tokens. By ensuring high diversity, the selected tokens better represent the original tokens, enabling effective performance even at high pruning ratios without requiring fine-tuning. Extensive experiments with various LMMs show that DivPrune achieves state-of-the-art accuracy over 16 image- and video-language datasets. Additionally, DivPrune reduces both the end-to-end latency and GPU memory usage for the tested models. The code is available $\href{https://github.com/vbdi/divprune}{\text{here}}$.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、テキスト、画像、ビデオなど、さまざまなデータモダリティを理解することのできる強力なモデルとして登場した。
LMMはテキストと視覚データの両方をトークンにエンコードし、それをLLM(Large Language Model)と組み合わせて処理する。
視覚的トークンを含めると、トークンの総数はかなり増加する。
LLMの入力長の増大は推論の複雑さを著しく増加させ、LMMのレイテンシが高くなる。
この問題に対処するため、視覚的トークンの一部を除去するトークンプルーニング手法が提案されている。
既存のトークンプルーニング法は、広範囲のキャリブレーションと微調整を必要とするか、あるいは、保持トークン間の冗長性の増大をもたらす最適以下の重要度に依存するかのいずれかである。
本稿では,まず,選択した {tokens} の多様性を最大化する部分集合を選択することを目標とする,MMDP (Max-Min Diversity Problem) としてトークンプルーニングを定式化する。
そして、MMDPを解くことで、選択したサブセットを取得し、残りをプーンする。
提案手法であるDivPruneは冗長性を低減し,選択したトークンの最大多様性を実現する。
高い多様性を確保することで、選択されたトークンは元のトークンをより良く表現し、微調整を必要とせず、高いプルーニング比でも効果的なパフォーマンスを実現する。
様々なLMMによる大規模な実験により、DivPruneは16の画像およびビデオ言語データセットに対して最先端の精度を達成している。
さらに、DivPruneは、テストされたモデルのエンドツーエンドのレイテンシとGPUメモリ使用量の両方を削減する。
コードは $\href{https://github.com/vbdi/divprune}{\text{here}}$ で入手できる。
関連論文リスト
- What Kind of Visual Tokens Do We Need? Training-free Visual Token Pruning for Multi-modal Large Language Models from the Perspective of Graph [15.364317811275344]
本稿では,G-Prune と呼ばれる学習自由な視覚トークンプルーニングのためのグラフベースの手法を提案する。
G-Pruneは視覚トークンをノードとみなし、それらの意味的類似性に基づいて接続を構築する。
実験結果から,G-Pruneは粗いタスクと微粒なタスクの両方で高い性能を維持しながら,計算オーバーヘッドを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2025-01-04T12:14:42Z) - Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference [45.11612407862277]
視覚言語モデル (VLM) では、視覚トークンはテキストトークンと比較して情報量が多すぎるにもかかわらず、計算オーバーヘッドがかなり大きい。
本稿では、余分なパラメータや微調整コストを不要とするSparseVLMと呼ばれるテキスト誘導型トレーニングフリートークン最適化機構を提案する。
論文 参考訳(メタデータ) (2024-10-06T09:18:04Z) - Sparsity Meets Similarity: Leveraging Long-Tail Distribution for Dynamic Optimized Token Representation in Multimodal Large Language Models [6.467840081978855]
マルチモーダル大言語モデル(MM-LLM)は様々なタスクで大きな成功を収めた。
主な計算負担は、処理されたテキストと視覚トークンから生じる。
視覚的CLSトークン類似度曲線の屈折点を同定する動的プルーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-02T10:49:10Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - Matryoshka Query Transformer for Large Vision-Language Models [103.84600181927884]
我々は,Materyoshka Query Transformer (MQT)を導入し,推論中に画像をmビジュアルトークンにエンコードする。
単一のモデルを一度トレーニングし、フレキシブルかつ劇的に、推論時の視覚トークンの数を削減します。
MQT-LLAVAは,LLaVAの固定576の代わりに最大256トークンを用いて,11ベンチマークでLLaVA-1.5のパフォーマンスと一致した。
論文 参考訳(メタデータ) (2024-05-29T17:39:42Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。