Fugu-MT 論文翻訳(概要): IDPruner: Harmonizing Importance and Diversity in Visual Token Pruning for MLLMs

論文の概要: IDPruner: Harmonizing Importance and Diversity in Visual Token Pruning for MLLMs

arxiv url: http://arxiv.org/abs/2602.13315v1
Date: Tue, 10 Feb 2026 11:20:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-17 14:17:27.846173
Title: IDPruner: Harmonizing Importance and Diversity in Visual Token Pruning for MLLMs
Title（参考訳）: IDPruner:MLLMにおけるビジュアルトーケンプルーニングにおける重要性と多様性の調和
Authors: Yifan Tan, Yifu Sun, Shirui Huang, Hong Liu, Guanghua Yu, Jianchen Zhu, Yangdong Deng,
Abstract要約: 視覚トークンのプルーニングはMLLM推論を加速させる重要な手法として登場した。 IDPrunerは最先端のパフォーマンスを実現し、様々なアーキテクチャやタスクにまたがる優れた一般化を実現している。
参考スコア（独自算出の注目度）: 11.254129271889035
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities, yet they encounter significant computational bottlenecks due to the massive volume of visual tokens. Consequently, visual token pruning, which substantially reduces the token count, has emerged as a critical technique for accelerating MLLM inference. Existing approaches focus on token importance, diversity, or an intuitive combination of both, without a principled framework for their optimal integration. To address this issue, we first conduct a systematic analysis to characterize the trade-off between token importance and semantic diversity. Guided by this analysis, we propose the \textbf{I}mportance and \textbf{D}iversity Pruner (\textbf{IDPruner}), which leverages the Maximal Marginal Relevance (MMR) algorithm to achieve a Pareto-optimal balance between these two objectives. Crucially, our method operates without requiring attention maps, ensuring full compatibility with FlashAttention and efficient deployment via one-shot pruning. We conduct extensive experiments across various model architectures and multimodal benchmarks, demonstrating that IDPruner achieves state-of-the-art performance and superior generalization across diverse architectures and tasks. Notably, on Qwen2.5-VL-7B-Instruct, IDPruner retains 95.18\% of baseline performance when pruning 75\% of the tokens, and still maintains 86.40\% even under an extreme 90\% pruning ratio. Our code is available at https://github.com/Tencent/AngelSlim.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は目覚ましい能力を示すが、膨大な量の視覚トークンのために計算上のボトルネックに遭遇する。その結果、トークン数を大幅に削減する視覚的トークンプルーニングがMLLM推論を加速させる重要な手法として登場した。既存のアプローチでは、トークンの重要性、多様性、あるいは両者の直感的な組み合わせに重点を置いています。この問題に対処するため,トークンの重要性と意味的多様性のトレードオフを特徴付けるために,まず体系的な分析を行う。本稿では,この2つの目的間のパレオト最適バランスを実現するために,MMRアルゴリズムを活用する。重要なことは、本手法は注意マップを必要とせずに動作し、FlashAttentionとの完全な互換性とワンショットプルーニングによる効率的なデプロイメントを保証する。我々は、様々なモデルアーキテクチャとマルチモーダルベンチマークにまたがって広範な実験を行い、IDPrunerが最先端の性能を達成し、多様なアーキテクチャやタスクにまたがる優れた一般化を実現することを実証した。特に、Qwen2.5-VL-7B-インストラクタでは、IDPrunerはトークンの75倍のプルーニング時に95.18倍のベースライン性能を保持し、極端な90倍のプルーニング比でも86.40倍の値を維持する。私たちのコードはhttps://github.com/Tencent/AngelSlim.comで利用可能です。

関連論文リスト

Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文参考訳（メタデータ） (2026-02-03T00:51:03Z)
D2Pruner: Debiased Importance and Structural Diversity for MLLM Token Pruning [49.16227597771663]
D2Prunerは、デバイアスされた重要性と構造的なプルーニングメカニズムを組み合わせたフレームワークである。 FLOPを74.2%削減し、元の性能の99.2%を維持した。既存の手法に比べて63.53%も改善されている。
論文参考訳（メタデータ） (2025-12-22T14:42:31Z)
FastMMoE: Accelerating Multimodal Large Language Models through Dynamic Expert Activation and Routing-Aware Token Pruning [16.753299634529736]
マルチモーダル・大規模言語モデル (MLLM) は優れた性能を達成しているが、高解像度の視覚入力は視覚トークンの長いシーケンスと相当な推論遅延をもたらす。冗長なビジュアルトークンの削減は、パフォーマンスを維持しながら計算/メモリの負担を軽減するために重要であり、リソース制約やレイテンシに敏感なシナリオでのMLLMデプロイメントを可能にする。本稿では,Fast Multimodal Mixture-of-Experts (FastMMoE)を提案する。
論文参考訳（メタデータ） (2025-11-22T02:25:00Z)
$\mathcal{V}isi\mathcal{P}runer$: Decoding Discontinuous Cross-Modal Dynamics for Efficient Multimodal LLMs [26.779915891040236]
我々は,LLaVA-v1.5 7B上での視線関連注意計算の最大99%,FLOPの最大53.9%を削減できるトレーニングフリープルーニングフレームワークであるemphVisiPrunerを提案する。さらに、モデルアーキテクチャと本質的なレイヤワイド処理ダイナミクスを整合させることにより、効率的なMLLMのトレーニングのための実用的なガイドラインを提供する。
論文参考訳（メタデータ） (2025-10-20T06:40:17Z)
MMG-Vid: Maximizing Marginal Gains at Segment-level and Token-level for Efficient Video LLMs [67.75865317787708]
MMG-Vidは、ビデオ理解のためのトレーニング不要なビジュアルトークンプルーニングフレームワークである。 MMG-Vidはオリジナルのパフォーマンスの99.5%以上を維持でき、視覚トークンの75%を効果的に削減できることを示す。
論文参考訳（メタデータ） (2025-08-28T17:50:03Z)
IAM: Efficient Inference through Attention Mapping between Different-scale LLMs [74.81417160018856]
IAMフレームワークは、注意計算の高速化とKVキャッシュ使用量の削減という2つの利点を実現する。 IAMはプリフィルを15%高速化し,KVキャッシュ使用量を22.1%削減できることを示す。
論文参考訳（メタデータ） (2025-07-16T06:39:11Z)
PAR: Prompt-Aware Token Reduction Method for Efficient Large Multimodal Models [32.33892531885448]
MLLM(Multimodal large language model)は、視覚的タスクにまたがる強力なパフォーマンスを示す。しかし、それらの効率は、マルチモーダル入力で長いコンテキストを処理することによる計算とメモリの要求によって妨げられている。 PAR(Prompt-Aware Token Reduction)は,モデルの性能を損なうことなく,視覚トークンを効率よく削減する新しい,プラグアンドプレイ方式である。
論文参考訳（メタデータ） (2024-10-09T07:13:22Z)
Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文参考訳（メタデータ） (2024-10-08T18:09:38Z)
Sparsity Meets Similarity: Leveraging Long-Tail Distribution for Dynamic Optimized Token Representation in Multimodal Large Language Models [6.467840081978855]
マルチモーダル大言語モデル(MM-LLM)は様々なタスクで大きな成功を収めた。主な計算負担は、処理されたテキストと視覚トークンから生じる。視覚的CLSトークン類似度曲線の屈折点を同定する動的プルーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-09-02T10:49:10Z)
Semantics-Depth-Symbiosis: Deeply Coupled Semi-Supervised Learning of Semantics and Depth [83.94528876742096]
我々は,意味的セグメンテーションと深さ推定という2つの密なタスクのMTL問題に取り組み,クロスチャネル注意モジュール(CCAM)と呼ばれる新しいアテンションモジュールを提案する。次に,AffineMixと呼ばれる予測深度を用いた意味分節タスクのための新しいデータ拡張と,ColorAugと呼ばれる予測セマンティクスを用いた単純な深度増分を定式化する。最後に,提案手法の性能向上をCityscapesデータセットで検証し,深度と意味に基づく半教師付きジョイントモデルにおける最先端結果の実現を支援する。
論文参考訳（メタデータ） (2022-06-21T17:40:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。