論文の概要: Towards Efficient VLMs: Information-Theoretic Driven Compression via Adaptive Structural Pruning
- arxiv url: http://arxiv.org/abs/2511.19518v1
- Date: Mon, 24 Nov 2025 03:37:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.066236
- Title: Towards Efficient VLMs: Information-Theoretic Driven Compression via Adaptive Structural Pruning
- Title(参考訳): 効率的なVLMを目指して:適応的構造解析による情報理論駆動圧縮
- Authors: Zhaoqi Xu, Yingying Zhang, Jian Li, Jianwei Guo, Qiannan Zhu, Hua Huang,
- Abstract要約: InfoPruneは視覚言語モデルの適応的構造圧縮のための情報理論フレームワークである。
VQAv2、TextVQA、GQAの実験では、InfoPruneは最大3.2倍のFLOPと1.8倍のアクセラレーションを達成でき、性能劣化は無視できる。
- 参考スコア(独自算出の注目度): 38.7577454874686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision-language models (VLMs) have shown remarkable performance across multimodal tasks, yet their ever-growing scale poses severe challenges for deployment and efficiency. Existing compression methods often rely on heuristic importance metrics or empirical pruning rules, lacking theoretical guarantees about information preservation. In this work, we propose InfoPrune, an information-theoretic framework for adaptive structural compression of VLMs. Grounded in the Information Bottleneck principle, we formulate pruning as a trade-off between retaining task-relevant semantics and discarding redundant dependencies. To quantify the contribution of each attention head, we introduce an entropy-based effective rank (eRank) and employ the Kolmogorov--Smirnov (KS) distance to measure the divergence between original and compressed structures. This yields a unified criterion that jointly considers structural sparsity and informational efficiency. Building on this foundation, we further design two complementary schemes: (1) a training-based head pruning guided by the proposed information loss objective, and (2) a training-free FFN compression via adaptive low-rank approximation. Extensive experiments on VQAv2, TextVQA, and GQA demonstrate that InfoPrune achieves up to 3.2x FLOP reduction and 1.8x acceleration with negligible performance degradation, establishing a theoretically grounded and practically effective step toward efficient multimodal large models.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の進歩は、マルチモーダルタスクにまたがる顕著なパフォーマンスを示しているが、その成長を続けるスケールは、デプロイメントと効率に深刻な課題をもたらす。
既存の圧縮法は、情報保存に関する理論的保証が欠如しているため、しばしばヒューリスティックな重要性の指標や経験的なプルーニング規則に依存している。
本稿では,VLMの適応的構造圧縮のための情報理論フレームワークであるInfoPruneを提案する。
Information Bottleneckの原則に基づいて、タスク関連セマンティクスの保持と冗長な依存関係の破棄のトレードオフとしてプルーニングを定式化します。
それぞれのアテンションヘッドの寄与を定量化するために、エントロピーに基づく有効ランク(eRank)を導入し、KS距離を用いて元の構造と圧縮された構造の間のばらつきを測定する。
これにより、構造的空間性と情報効率を共同で考慮する統一的な基準が得られる。
この基盤を基盤として,(1)情報損失目標に導かれるトレーニングベースヘッドプルーニング,(2)適応型低ランク近似によるトレーニングフリーFFN圧縮の2つの相補的スキームを設計する。
VQAv2、TextVQA、GQAの広範囲にわたる実験により、InfoPruneは最大3.2倍のFLOP削減と1.8倍の加速を無視可能な性能劣化で達成し、理論上は基礎的かつ実用的なステップを確立し、効率的なマルチモーダル大モデルに向けてのステップを確立した。
関連論文リスト
- Learning Causality for Longitudinal Data [1.2691047660244335]
この論文は、高次元の時間変化データにおける因果推論と因果表現学習の手法を開発する。
最初のコントリビューションは、個別処理効果(ITE)を推定するモデルであるCDVAE(Causal Dynamic Variational Autoencoder)の導入である。
第2のコントリビューションでは,Contrastive Predictive Coding (CPC) とInfoMaxによって強化された RNN に基づく長期的反事実回帰のための効率的なフレームワークを提案する。
第3のコントリビューションは、潜伏が観察された変数にどのように現れるかに対処することでCRLを前進させる。
論文 参考訳(メタデータ) (2025-12-04T16:51:49Z) - A Systematic Study of Compression Ordering for Large Language Models [0.5926203312586109]
本研究では,Qwen2.5 3Bモデルに適用した場合の知識蒸留,構造化プルーニング,低ビット量子化の方法について系統的に検討する。
実験により、量子化は最大のスタンドアロン圧縮を提供する一方で、プルーニングは適度な品質劣化をもたらすことが示された。
論文 参考訳(メタデータ) (2025-11-23T12:46:56Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Activation-Informed Pareto-Guided Low-Rank Compression for Efficient LLM/VLM [11.762499172999886]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は最先端のパフォーマンスを達成しているが、それらは展開において重要なメモリとコンピューティングの課題を課している。
この課題に対処する新しい低ランク圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-07T03:07:47Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Generalized Nested Latent Variable Models for Lossy Coding applied to Wind Turbine Scenarios [14.48369551534582]
学習に基づくアプローチは、圧縮率と再構成された画質の妥協を最小化する。
成功したテクニックは、2レベルネストされた潜伏変数モデル内で機能するディープハイパープライアの導入である。
本稿では,マルコフ連鎖構造を持つ一般化Lレベルネスト生成モデルを設計することによって,この概念を拡張した。
論文 参考訳(メタデータ) (2024-06-10T11:00:26Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Disentangled Representation Learning with Transmitted Information Bottleneck [57.22757813140418]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文 参考訳(メタデータ) (2023-11-03T03:18:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。