論文の概要: D2Pruner: Debiased Importance and Structural Diversity for MLLM Token Pruning
- arxiv url: http://arxiv.org/abs/2512.19443v2
- Date: Fri, 26 Dec 2025 04:08:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 13:23:29.800688
- Title: D2Pruner: Debiased Importance and Structural Diversity for MLLM Token Pruning
- Title(参考訳): D2Pruner:MLLMトーケンプルーニングにおける重要度と構造多様性
- Authors: Evelyn Zhang, Fufu Yu, Aoqi Wu, Zichen Wen, Ke Yan, Shouhong Ding, Biqing Qi, Linfeng Zhang,
- Abstract要約: D2Prunerは、デバイアスされた重要性と構造的なプルーニングメカニズムを組み合わせたフレームワークである。
FLOPを74.2%削減し、元の性能の99.2%を維持した。
既存の手法に比べて63.53%も改善されている。
- 参考スコア(独自算出の注目度): 49.16227597771663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Processing long visual token sequences poses a significant computational burden on Multimodal Large Language Models (MLLMs). While token pruning offers a path to acceleration, we find that current methods, while adequate for general understanding, catastrophically fail on fine-grained localization tasks. We attribute this failure to the inherent flaws of the two prevailing strategies: importance-based methods suffer from a strong positional bias, an inherent model artifact that distracts from semantic content, while diversity-based methods exhibit structural blindness, disregarding the user's prompt and spatial redundancy. To address this, we introduce D2Pruner, a framework that rectifies these issues by uniquely combining debiased importance with a structural pruning mechanism. Our method first secures a core set of the most critical tokens as pivots based on a debiased attention score. It then performs a Maximal Independent Set (MIS) selection on the remaining tokens, which are modeled on a hybrid graph where edges signify spatial proximity and semantic similarity. This process iteratively preserves the most important and available token while removing its neighbors, ensuring that the supplementary tokens are chosen to maximize importance and diversity. Extensive experiments demonstrate that D2Pruner has exceptional efficiency and fidelity. Applied to LLaVA-1.5-7B for general understanding tasks, it reduces FLOPs by 74.2\% while retaining 99.2\% of its original performance. Furthermore, in challenging localization benchmarks with InternVL-2.5-8B, it maintains 85.7\% performance at a 90\% token reduction rate, marking a significant advancement with up to 63. 53\% improvement over existing methods.
- Abstract(参考訳): 長い視覚的トークンシーケンスの処理は、MLLM(Multimodal Large Language Models)において重要な計算負担となる。
トークンプルーニングは加速への経路を提供するが、現在の手法は一般的な理解には適しているが、微粒な局所化タスクでは破滅的に失敗する。
重要度に基づく手法は、強い位置バイアス、意味的コンテンツから逸脱する固有のモデルアーティファクト、そして多様性に基づく手法は、ユーザのプロンプトや空間的冗長性を無視した構造的盲点を示す。
D2Pruner(D2Pruner)は、不偏重みと構造的プルーニング機構を一意に組み合わせることで、これらの問題を修正するフレームワークである。
提案手法は,まず最も重要なトークンのコアセットを,不偏注意スコアに基づいてピボットとして確保する。
その後、残ったトークンに対して最大独立集合(MIS)選択を行い、エッジが空間的近接性と意味的類似性を示すハイブリッドグラフをモデル化する。
このプロセスは、隣人を取り除きながら最も重要で利用可能なトークンを反復的に保存し、追加トークンが重要かつ多様性を最大化するために選択されることを保証する。
大規模な実験により、D2Prunerは例外的な効率と忠実さを持つことが示された。
一般的な理解タスクにLLaVA-1.5-7Bを適用すると、FLOPを74.2\%削減し、元の性能の99.2\%を維持できる。
さらに、InternVL-2.5-8Bのローカライゼーションベンチマークでは、トークン還元率90\%で85.7\%のパフォーマンスを維持しており、最大63.5%の大幅な進歩を示している。
53\%改善した。
関連論文リスト
- Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution [3.4666771782038652]
大規模言語モデル(LLM)は、その恒星の性能の大部分を入力コンテキストの拡大に負っているが、そのような冗長性は金銭的コスト、炭素フットプリント、推論時間の遅延を膨らませている。
本稿では,LLMのための新しいプロンプト圧縮フレームワークであるFrugalPromptを紹介する。
我々は,4つのNLPタスク(感性分析,コモンセンスQA,要約,数学的推論)にまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-10-18T10:22:13Z) - TrimTokenator: Towards Adaptive Visual Token Pruning for Large Multimodal Models [4.779482139419908]
テキストトークンと意味的に視覚トークンを除去する相互情報に基づくトークンプルーニング戦略を導入する。
LLaVA-15-7BやLLaVA-7Bといったモデルでは,テキストトークンを88.9%削減しながら高い性能を維持している。
論文 参考訳(メタデータ) (2025-08-30T02:43:50Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - ZeroTuning: Unlocking the Initial Token's Power to Enhance Large Language Models Without Training [15.783265191574392]
我々はZeroTuningを紹介した。ZeroTuningは、初期トークンに頭部特異的な注意調整を適用することで、LCMの性能を向上させる訓練自由な方法である。
このトークンの注意ログに軽量バイアスを加えることで、下流の注意分布のエントロピーを単調に制御できることが理論的に示されている。
検証例を校正する教師ありモードと、モデルの出力エントロピーを直接最小化する教師なしモードの2つのバリエーションを示す。
論文 参考訳(メタデータ) (2025-05-16T22:52:24Z) - PAR: Prompt-Aware Token Reduction Method for Efficient Large Multimodal Models [32.33892531885448]
MLLM(Multimodal large language model)は、視覚的タスクにまたがる強力なパフォーマンスを示す。
しかし、それらの効率は、マルチモーダル入力で長いコンテキストを処理することによる計算とメモリの要求によって妨げられている。
PAR(Prompt-Aware Token Reduction)は,モデルの性能を損なうことなく,視覚トークンを効率よく削減する新しい,プラグアンドプレイ方式である。
論文 参考訳(メタデータ) (2024-10-09T07:13:22Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - Receptive Multi-granularity Representation for Person Re-Identification [46.99913453669368]
本稿では,ストライプに基づく特徴学習を容易にするために,受動的多粒性学習手法を提案する。
2分岐ネットワークアーキテクチャにより、識別的アイデンティティ表現のスケールが異なることが分かる。
本手法は, Market-1501 ベンチマークにおいて96.2%@Rank-1 または 90.0%@mAP の最先端精度を実現する。
論文 参考訳(メタデータ) (2020-08-31T09:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。