論文の概要: Towards Efficient VLMs: Information-Theoretic Driven Compression via Adaptive Structural Pruning
- arxiv url: http://arxiv.org/abs/2511.19518v1
- Date: Mon, 24 Nov 2025 03:37:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.066236
- Title: Towards Efficient VLMs: Information-Theoretic Driven Compression via Adaptive Structural Pruning
- Title(参考訳): 効率的なVLMを目指して:適応的構造解析による情報理論駆動圧縮
- Authors: Zhaoqi Xu, Yingying Zhang, Jian Li, Jianwei Guo, Qiannan Zhu, Hua Huang,
- Abstract要約: InfoPruneは視覚言語モデルの適応的構造圧縮のための情報理論フレームワークである。
VQAv2、TextVQA、GQAの実験では、InfoPruneは最大3.2倍のFLOPと1.8倍のアクセラレーションを達成でき、性能劣化は無視できる。
- 参考スコア(独自算出の注目度): 38.7577454874686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision-language models (VLMs) have shown remarkable performance across multimodal tasks, yet their ever-growing scale poses severe challenges for deployment and efficiency. Existing compression methods often rely on heuristic importance metrics or empirical pruning rules, lacking theoretical guarantees about information preservation. In this work, we propose InfoPrune, an information-theoretic framework for adaptive structural compression of VLMs. Grounded in the Information Bottleneck principle, we formulate pruning as a trade-off between retaining task-relevant semantics and discarding redundant dependencies. To quantify the contribution of each attention head, we introduce an entropy-based effective rank (eRank) and employ the Kolmogorov--Smirnov (KS) distance to measure the divergence between original and compressed structures. This yields a unified criterion that jointly considers structural sparsity and informational efficiency. Building on this foundation, we further design two complementary schemes: (1) a training-based head pruning guided by the proposed information loss objective, and (2) a training-free FFN compression via adaptive low-rank approximation. Extensive experiments on VQAv2, TextVQA, and GQA demonstrate that InfoPrune achieves up to 3.2x FLOP reduction and 1.8x acceleration with negligible performance degradation, establishing a theoretically grounded and practically effective step toward efficient multimodal large models.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の進歩は、マルチモーダルタスクにまたがる顕著なパフォーマンスを示しているが、その成長を続けるスケールは、デプロイメントと効率に深刻な課題をもたらす。
既存の圧縮法は、情報保存に関する理論的保証が欠如しているため、しばしばヒューリスティックな重要性の指標や経験的なプルーニング規則に依存している。
本稿では,VLMの適応的構造圧縮のための情報理論フレームワークであるInfoPruneを提案する。
Information Bottleneckの原則に基づいて、タスク関連セマンティクスの保持と冗長な依存関係の破棄のトレードオフとしてプルーニングを定式化します。
それぞれのアテンションヘッドの寄与を定量化するために、エントロピーに基づく有効ランク(eRank)を導入し、KS距離を用いて元の構造と圧縮された構造の間のばらつきを測定する。
これにより、構造的空間性と情報効率を共同で考慮する統一的な基準が得られる。
この基盤を基盤として,(1)情報損失目標に導かれるトレーニングベースヘッドプルーニング,(2)適応型低ランク近似によるトレーニングフリーFFN圧縮の2つの相補的スキームを設計する。
VQAv2、TextVQA、GQAの広範囲にわたる実験により、InfoPruneは最大3.2倍のFLOP削減と1.8倍の加速を無視可能な性能劣化で達成し、理論上は基礎的かつ実用的なステップを確立し、効率的なマルチモーダル大モデルに向けてのステップを確立した。
関連論文リスト
- A Systematic Study of Compression Ordering for Large Language Models [0.5926203312586109]
本研究では,Qwen2.5 3Bモデルに適用した場合の知識蒸留,構造化プルーニング,低ビット量子化の方法について系統的に検討する。
実験により、量子化は最大のスタンドアロン圧縮を提供する一方で、プルーニングは適度な品質劣化をもたらすことが示された。
論文 参考訳(メタデータ) (2025-11-23T12:46:56Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Activation-Informed Pareto-Guided Low-Rank Compression for Efficient LLM/VLM [11.762499172999886]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は最先端のパフォーマンスを達成しているが、それらは展開において重要なメモリとコンピューティングの課題を課している。
この課題に対処する新しい低ランク圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-07T03:07:47Z) - Generalized Nested Latent Variable Models for Lossy Coding applied to Wind Turbine Scenarios [14.48369551534582]
学習に基づくアプローチは、圧縮率と再構成された画質の妥協を最小化する。
成功したテクニックは、2レベルネストされた潜伏変数モデル内で機能するディープハイパープライアの導入である。
本稿では,マルコフ連鎖構造を持つ一般化Lレベルネスト生成モデルを設計することによって,この概念を拡張した。
論文 参考訳(メタデータ) (2024-06-10T11:00:26Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Disentangled Representation Learning with Transmitted Information Bottleneck [57.22757813140418]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文 参考訳(メタデータ) (2023-11-03T03:18:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。