論文の概要: EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2602.17196v1
- Date: Thu, 19 Feb 2026 09:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.900048
- Title: EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models
- Title(参考訳): EntropyPrune:マルチモーダル大言語モデルのためのマトリックスエントロピーガイド付きビジュアルトーケンプルーニング
- Authors: Yahong Wang, Juncheng Wu, Zhangkai Ni, Chengmei Yang, Yihang Liu, Longzhen Yang, Yuyin Zhou, Ying Wen, Lianghua He,
- Abstract要約: 本稿では,行列-エントロピーの視点を導入し,視覚表現の情報内容が鋭く一貫した低下を示す「エントロピー崩壊層(Entropy Collapse Layer,ECL)」を同定する。
IntropyPruneは,個々のトークンの情報値を定量化し,冗長なトークンをプルーする新しいマトリックスエントロピー誘導型トークンプルーニングフレームワークである。
多様なマルチモーダルベンチマークの実験では、エントロピープルーンは精度と効率の両方で最先端のプルーニング法より一貫して優れていることが示されている。
- 参考スコア(独自算出の注目度): 35.12029704777804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) incur substantial inference cost due to the processing of hundreds of visual tokens per image. Although token pruning has proven effective for accelerating inference, determining when and where to prune remains largely heuristic. Existing approaches typically rely on static, empirically selected layers, which limit interpretability and transferability across models. In this work, we introduce a matrix-entropy perspective and identify an "Entropy Collapse Layer" (ECL), where the information content of visual representations exhibits a sharp and consistent drop, which provides a principled criterion for selecting the pruning stage. Building on this observation, we propose EntropyPrune, a novel matrix-entropy-guided token pruning framework that quantifies the information value of individual visual tokens and prunes redundant ones without relying on attention maps. Moreover, to enable efficient computation, we exploit the spectral equivalence of dual Gram matrices, reducing the complexity of entropy computation and yielding up to a 64x theoretical speedup. Extensive experiments on diverse multimodal benchmarks demonstrate that EntropyPrune consistently outperforms state-of-the-art pruning methods in both accuracy and efficiency. On LLaVA-1.5-7B, our method achieves a 68.2% reduction in FLOPs while preserving 96.0% of the original performance. Furthermore, EntropyPrune generalizes effectively to high-resolution and video-based models, highlighting the strong robustness and scalability in practical MLLM acceleration. The code will be publicly available at https://github.com/YahongWang1/EntropyPrune.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、画像ごとに数百の視覚トークンを処理するため、かなりの推論コストを発生させる。
トークンプルーニングは推論の加速に有効であることが証明されているが、いつ、どこでプルーンするかは概ねヒューリスティックなままである。
既存のアプローチは通常、静的で経験的に選択されたレイヤに依存しており、モデル間の解釈可能性と転送可能性を制限する。
本研究では,行列-エントロピーの視点を導入し,視覚表現の情報内容が鋭く一貫した落下を示す「エントロピー崩壊層(Entropy Collapse Layer,ECL)」を同定する。
この観測に基づいて,個々の視覚トークンの情報値を定量化し,注意マップに頼らずに冗長なトークンを抽出する新しいマトリックスエントロピー誘導型トークンプルーニングフレームワークであるEntropyPruneを提案する。
さらに, 2つのグラム行列のスペクトル等価性を利用して,エントロピー計算の複雑さを低減し,64倍の高速化を実現する。
多様なマルチモーダルベンチマークに対する大規模な実験により、エントロピープルーンは精度と効率の両方で最先端のプルーニング法を一貫して上回っていることが示された。
LLaVA-1.5-7Bでは、元の性能の96.0%を維持しながら、FLOPの68.2%の削減を実現している。
さらに、EntropyPruneは高解像度およびビデオベースモデルに効果的に一般化し、実用的なMLLMアクセラレーションにおける堅牢性とスケーラビリティを強調している。
コードはhttps://github.com/YahongWang1/EntropyPrune.comで公開される。
関連論文リスト
- Beyond Structure: Invariant Crystal Property Prediction with Pseudo-Particle Ray Diffraction [23.89478649565297]
結晶特性予測は、従来の密度汎関数理論を用いて、大きな多体系に対して正確に解くことを計算的に禁止している。
グラフ表現の他に、独自の相互空間回折を利用するRDNetを導入する。
Materials Project、JARVIS-DFT、MatBenchで大規模な実験を行い、提案モデルが最先端の性能を達成することを実証した。
論文 参考訳(メタデータ) (2025-09-26T02:30:23Z) - PIP: Perturbation-based Iterative Pruning for Large Language Models [15.00536465178398]
PIP (Perturbation-based Iterative Pruning) は,大規模言語モデルを最適化する新しい二重ビュー構造化プルーニング手法である。
勾配差の計算により、PIPはこれらの2つの見解の区別に苦慮している人たちを反復的に引き起こす。
実験の結果,PIPは元のモデルの精度の85%以上を維持しつつ,パラメータ数を約20%削減できることがわかった。
論文 参考訳(メタデータ) (2025-01-25T17:10:50Z) - Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。
視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。
実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文 参考訳(メタデータ) (2024-10-10T17:02:48Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - A Simplified Framework for Contrastive Learning for Node Representations [2.277447144331876]
グラフにノードを埋め込むために,グラフニューラルネットワークと組み合わせてコントラスト学習を展開できる可能性を検討する。
組込み行列の単純なカラムワイド後処理により, 組込み結果の品質とトレーニング時間を大幅に改善できることを示す。
この修正により、下流の分類タスクは最大1.5%改善され、8つの異なるベンチマークのうち6つで既存の最先端のアプローチに勝っている。
論文 参考訳(メタデータ) (2023-05-01T02:04:36Z) - Efficient Iterative Amortized Inference for Learning Symmetric and
Disentangled Multi-Object Representations [8.163697683448811]
本稿では,オブジェクト中心表現の教師なし学習のための効率的なフレームワークであるEfficientMORLを紹介する。
対称性と非絡み合いの両方を必要とすることによる最適化の課題は、高コスト反復的償却推論によって解決できることを示す。
標準のマルチオブジェクト・ベンチマークでは,強いオブジェクト分解と歪みを示しながら,ほぼ1桁の高速なトレーニングとテスト時間推定を実現している。
論文 参考訳(メタデータ) (2021-06-07T14:02:49Z) - Efficient Semi-Implicit Variational Inference [65.07058307271329]
効率的でスケーラブルな半単純外挿 (SIVI) を提案する。
本手法はSIVIの証拠を低勾配値の厳密な推測にマッピングする。
論文 参考訳(メタデータ) (2021-01-15T11:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。