論文の概要: Capability-Guided Compression: Toward Interpretability-Aware Budget Allocation for Large Language Models
- arxiv url: http://arxiv.org/abs/2603.16440v1
- Date: Tue, 17 Mar 2026 12:21:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.26904
- Title: Capability-Guided Compression: Toward Interpretability-Aware Budget Allocation for Large Language Models
- Title(参考訳): 能力誘導圧縮:大規模言語モデルに対する解釈可能性を考慮した予算配分に向けて
- Authors: Rishaank Gupta,
- Abstract要約: 大規模言語モデル圧縮は、プルーニング、量子化、低ランク分解によって大幅に進歩した。
これを能力盲圧縮問題と呼び、2つの文書化された失敗の根本原因であると主張する。
本稿では,Sparse Autoencoder (SAE) 由来の能力密度マップを用いて,この問題に対処するフレームワークである Capability-Guided Compression (CGC) を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model compression has made substantial progress through pruning, quantization, and low-rank decomposition, yet a fundamental limitation persists across all existing methods: compression budgets are allocated without any representation of what individual model components functionally encode. We term this the capability-blind compression problem and argue it is a root cause of two well-documented failures -- the insensitivity of perplexity-based evaluation to reasoning capability loss, and the abrupt phase transitions in model performance recently characterized by Ma et al. (2026). We propose Capability-Guided Compression (CGC), a framework that addresses this by using Sparse Autoencoder (SAE)-derived capability density maps to allocate differential compression budgets across transformer components. Capability density is a formally defined scalar measure combining the feature breadth, activation entropy, and cross-input consistency of a component's SAE feature activation distribution. We prove theoretically that components with higher capability density exhibit lower structural redundancy and reach their individual phase transition points at lower compression ratios, providing the first pre-compression mechanism for component-level phase transition prediction. Experiments on GPT-2 Medium confirm that capability density is statistically independent of Wanda importance scores (Spearman rho = -0.054, n = 384 heads), establishing it as a genuinely novel compression signal orthogonal to all existing importance metrics. We report a negative result on PPL-based compression comparison and provide a principled diagnosis identifying GPT-2 Medium as an insufficient test bed for the full CGC hypothesis. The theoretical framework, density formalism, and orthogonality finding constitute a foundation for capability-aware compression research.
- Abstract(参考訳): 大規模な言語モデル圧縮は、プルーニング、量子化、低ランクの分解を通じて大幅に進歩しているが、すべての既存のメソッドに基本的な制限が持続している。
我々はこれを能率盲圧縮問題と呼び、近年Ma et al (2026) によって特徴づけられたモデル性能の急激な位相遷移は、難解性に基づく推論能力損失に対する評価の不感度の2つの文書化失敗の根本原因であると主張している。
本稿では,Sparse Autoencoder (SAE) 由来の機能密度マップを用いて,変圧器部品間の差分圧縮予算を割り当てることにより,この問題に対処するフレームワークである Capability-Guided Compression (CGC) を提案する。
容量密度は、特徴幅、アクティベーションエントロピー、およびコンポーネントのSAE機能アクティベーション分布のクロスインプット一貫性を組み合わせた正式に定義されたスカラー測度である。
本研究では, 高機能密度の部品が低い構造冗長性を示し, 個々の相転移点に低い圧縮比で到達できることを理論的に証明し, コンポーネントレベルの相転移予測のための最初のプレ圧縮機構を提供する。
GPT-2 の実験では、能力密度がワンダの重要度スコア(スピアマンrho = -0.054, n = 384 ヘッド)から統計的に独立していることが確認され、既存の重要度指標に直交する真に新しい圧縮信号として確立された。
PPLによる圧縮比較の負の結果を報告し, GPT-2 Mediumを完全CGC仮説の試験ベッドとして不十分であることを示す原則的診断を提供する。
理論的枠組み、密度形式主義、直交性発見は、能力を考慮した圧縮研究の基礎となっている。
関連論文リスト
- Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - A Model-Driven Lossless Compression Algorithm Resistant to Mismatch [2.7930955543692817]
任意の大きさの予測ミスマッチに対して頑健な次点予測に基づく新しい圧縮アルゴリズムを提案する。
本研究は,一般的な圧縮法よりも高い圧縮比を達成しつつ,認証ミスマッチ方式における信頼性の高い動作を示すものである。
論文 参考訳(メタデータ) (2026-01-25T04:07:21Z) - Breaking the Compression Ceiling: Data-Free Pipeline for Ultra-Efficient Delta Compression [57.71917274869577]
UltraDeltaはデータフリーのデルタ圧縮パイプラインで、超高圧縮と強力なパフォーマンスを実現する。
UltraDeltaは、冗長性を最小化し、情報を最大化し、層間、層内、大域的な寸法で性能を安定させるように設計されている。
論文 参考訳(メタデータ) (2025-05-19T10:37:22Z) - Optimizing Singular Spectrum for Large Language Model Compression [95.7621116637755]
SVDの分解したコンポーネントをデータ駆動で再スケールする新しい圧縮フレームワークであるSoCoを紹介する。
学習可能な特異スペクトルのおかげで、SoCoは重要度スコアに応じて成分を適応的にプーンする。
複数のLLMおよびベンチマークでの実験的な評価は、SoCoがモデル圧縮における最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2025-02-20T23:18:39Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - Communication-Efficient Distributed Learning with Local Immediate Error
Compensation [95.6828475028581]
本稿では,局所的即時誤差補償SGD (LIEC-SGD) 最適化アルゴリズムを提案する。
LIEC-SGDは、コンバージェンスレートまたは通信コストのいずれにおいても、以前の研究よりも優れている。
論文 参考訳(メタデータ) (2024-02-19T05:59:09Z) - Implicit Compressibility of Overparametrized Neural Networks Trained
with Heavy-Tailed SGD [31.61477313262589]
勾配降下(SGD)を訓練した一層ニューラルネットワークの検討
加法的な重み付きノイズを各繰り返しに注入すると、任意の圧縮率に対して、アルゴリズムの出力が高い確率で圧縮可能であるように過度なパラメータ化のレベルが存在することを示す。
論文 参考訳(メタデータ) (2023-06-13T20:37:02Z) - Enhancing distributed sensing with imperfect error correction [4.812718493682455]
エンタングルメントは、分散量子センシングプロトコルを介して、センサネットワークにおける情報処理タスクの強化を約束している。
センサネットワークではノイズがユビキタスであるため,Gottesman, Kitaev, Preskill(GKP)状態に基づく誤り訂正スキームが要求される。
そこで, 不均質雑音モデルにおいて, 有限圧縮GKP状態に対する性能向上の解析を拡張した。
論文 参考訳(メタデータ) (2022-01-17T16:42:17Z) - Linear Convergent Decentralized Optimization with Compression [50.44269451541387]
圧縮を伴う既存の分散アルゴリズムは主にDGD型アルゴリズムの圧縮に焦点を当てている。
原始双対アルゴリズムによって動機付けられた本論文は、最初のアンダーラインLinunderlineEAr収束を提案する。
underline Decentralized with compression, LEAD。
論文 参考訳(メタデータ) (2020-07-01T04:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。