論文の概要: Beyond Attention or Similarity: Maximizing Conditional Diversity for Token Pruning in MLLMs
- arxiv url: http://arxiv.org/abs/2506.10967v1
- Date: Thu, 12 Jun 2025 17:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.899359
- Title: Beyond Attention or Similarity: Maximizing Conditional Diversity for Token Pruning in MLLMs
- Title(参考訳): 意識や類似性を超えた:MLLMにおけるトーケンプルーニングの条件変数の最大化
- Authors: Qizhe Zhang, Mengzhen Liu, Lichen Li, Ming Lu, Yuan Zhang, Junwen Pan, Qi She, Shanghang Zhang,
- Abstract要約: マルチモーダルな大言語モデルでは、入力される視覚トークンの長さはテキストのそれよりもはるかに大きいことが多い。
我々は,保持トークンの条件付き多様性を最大化する,CDPrunerという新しい視覚的トークン解析手法を提案する。
実験の結果、CDPrunerは様々な視覚ベースのベンチマークで新しい最先端を確立できることがわかった。
- 参考スコア(独自算出の注目度): 30.97955016203357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multimodal large language models (MLLMs), the length of input visual tokens is often significantly greater than that of their textual counterparts, leading to a high inference cost. Many works aim to address this issue by removing redundant visual tokens. However, current approaches either rely on attention-based pruning, which retains numerous duplicate tokens, or use similarity-based pruning, overlooking the instruction relevance, consequently causing suboptimal performance. In this paper, we go beyond attention or similarity by proposing a novel visual token pruning method named CDPruner, which maximizes the conditional diversity of retained tokens. We first define the conditional similarity between visual tokens conditioned on the instruction, and then reformulate the token pruning problem with determinantal point process (DPP) to maximize the conditional diversity of the selected subset. The proposed CDPruner is training-free and model-agnostic, allowing easy application to various MLLMs. Extensive experiments across diverse MLLMs show that CDPruner establishes new state-of-the-art on various vision-language benchmarks. By maximizing conditional diversity through DPP, the selected subset better represents the input images while closely adhering to user instructions, thereby preserving strong performance even with high reduction ratios. When applied to LLaVA, CDPruner reduces FLOPs by 95\% and CUDA latency by 78\%, while maintaining 94\% of the original accuracy. Our code is available at https://github.com/Theia-4869/CDPruner.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)では、入力される視覚トークンの長さはテキストのそれよりも大幅に大きくなり、高い推論コストが生じる。
多くの研究は、冗長なビジュアルトークンを削除することでこの問題に対処することを目指している。
しかし、現在のアプローチは、多数の重複トークンを保持するアテンションベースのプルーニングに依存するか、あるいは類似性ベースのプルーニングを使用して、命令の関連性を見落とし、その結果、サブ最適性能をもたらす。
本稿では,CDPrunerという新しい視覚的トークンプルーニング手法を提案し,保持トークンの条件付き多様性を最大化する。
まず、命令に条件付き視覚トークン間の条件類似性を定義し、次に、決定点プロセス(DPP)を用いてトークンプルーニング問題を修正し、選択したサブセットの条件の多様性を最大化する。
提案したCDPrunerは、トレーニング不要で、モデルに依存しないため、様々なMLLMに容易に適用できる。
MLLMの多種多様な実験により、CDPrunerは様々な視覚言語ベンチマークで新しい最先端技術を確立している。
DPPによる条件の多様性の最大化により、選択されたサブセットは、入力画像をより良く表現し、ユーザの指示に密着し、高い低減比でも強い性能を維持する。
LLaVAに適用すると、CDPrunerはFLOPを95%、CUDAレイテンシを78パーセント削減し、元の精度の94パーセントを維持している。
私たちのコードはhttps://github.com/Theia-4869/CDPruner.comで公開されています。
関連論文リスト
- DivPrune: Diversity-based Visual Token Pruning for Large Multimodal Models [13.519389777060226]
LMM(Large Multimodal Models)にビジュアルトークンを追加すると、トークンの総数は数千に増加する。
この問題に対処するため、視覚的トークンの一部を除去するトークンプルーニング手法が提案されている。
提案手法であるDivPruneは冗長性を低減し,選択したトークンの最大多様性を実現する。
論文 参考訳(メタデータ) (2025-03-04T01:33:14Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Sparsity Meets Similarity: Leveraging Long-Tail Distribution for Dynamic Optimized Token Representation in Multimodal Large Language Models [6.467840081978855]
マルチモーダル大言語モデル(MM-LLM)は様々なタスクで大きな成功を収めた。
主な計算負担は、処理されたテキストと視覚トークンから生じる。
視覚的CLSトークン類似度曲線の屈折点を同定する動的プルーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-02T10:49:10Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z) - Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。
PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文 参考訳(メタデータ) (2024-02-17T00:09:32Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。