論文の概要: Predicting LLM Compression Degradation from Spectral Statistics
- arxiv url: http://arxiv.org/abs/2604.18085v1
- Date: Mon, 20 Apr 2026 11:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.819393
- Title: Predicting LLM Compression Degradation from Spectral Statistics
- Title(参考訳): スペクトル統計によるLLM圧縮劣化予測
- Authors: Mingxue, Xu,
- Abstract要約: マトリックスレベルの低ランク圧縮は、大きな言語モデルのコストを削減するための有望な方法である。
この計算にコミットする前に圧縮誘起劣化を予測することができるか?
安定なランクと情報密度は,パラメータごとのビット数で測定され,性能劣化が支配的であることがわかった。
- 参考スコア(独自算出の注目度): 2.76240219662896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Matrix-level low-rank compression is a promising way to reduce the cost of large language models, but running compression and evaluating the resulting models on language tasks can be prohibitively expensive. Can compression-induced degradation be predicted before committing to this compute? We systematically analyze the Qwen3 and Gemma3 model families across four representative low-rank compression methods: vanilla SVD, two ASVD variants, and SVD-LLM. We find that stable rank and information density, measured in bits per parameter, dominate performance degradation. The interaction term $γ\cdot \barρ_s$, defined as compression ratio times stable rank, is a robust predictor of accuracy degradation, achieving leave-one-out cross-validation Pearson correlations of $0.890$ for attention layers and $0.839$ for MLP layers. We provide theoretical intuition for why this predictor succeeds by connecting it to standard SVD truncation bounds and error composition mechanisms in transformer layers. These findings enable a predict-then-compress workflow: compute $γ\cdot \barρ_s$ from weights, estimate degradation, and invest compute only in desirable configurations.
- Abstract(参考訳): マトリックスレベルの低ランク圧縮は、大きな言語モデルのコストを削減するための有望な方法である。
この計算にコミットする前に圧縮誘起劣化を予測することができるか?
バニラSVD, ASVD 変種2種類, SVD-LLMの4つの代表的な低ランク圧縮手法について, Qwen3 と Gemma3 モデルファミリを体系的に解析した。
安定なランクと情報密度は,パラメータごとのビット数で測定され,性能劣化が支配的であることがわかった。
相互作用項 $γ\cdot \barρ_s$ は圧縮比の安定度で定義されるもので、精度の劣化を強く予測し、注意層は0.890ドル、MLP層は0.839ドルである。
本稿では,トランス層における標準SVDトランケーション境界とエラー構成機構を接続することで,この予測器がなぜ成功するのかを理論的直観を与える。
重みから$γ\cdot \barρ_s$を計算し、見積もりの劣化を推定し、望ましい構成でのみ計算に投資する。
関連論文リスト
- Low-Rank Compression of Pretrained Models via Randomized Subspace Iteration [2.1016374925364616]
特異値分解(SVD)に基づく低ランク分解は、モデル還元の原理的なアプローチを提供する。
ランダム化SVD (RSVD) のようなランダム化された代替手法は効率を向上するが、特異値スペクトルがゆっくりと崩壊すると近似品質が低下する。
より効果的な代替手段としてランダム化部分空間(RSI)を提案する。
論文 参考訳(メタデータ) (2026-04-03T02:47:03Z) - An Efficient Gradient-Aware Error-Bounded Lossy Compressor for Federated Learning [7.649286962189554]
フェデレートラーニング(FL)は、クライアントのプライベートデータを公開せずに、協調的なモデルトレーニングを可能にする。
EBLCは特に、細粒度のユーティリティ圧縮トレードオフをアピールしている。
モデル精度を保ちながら高い圧縮率を達成するために,FL勾配データに適したEBLCフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-07T23:59:09Z) - The Lossy Horizon: Error-Bounded Predictive Coding for Lossy Text Compression (Episode I) [6.453417258264177]
本稿では,誤り境界予測符号化(EPC, Error-Bounded Predictive Coding)を提案する。
オリジナルのトークンのサブセットを格納する代わりに、EPCはモデルがマスク付きコンテンツを予測し、モデルのトップ予測が正しくない場合のみ、最小限のランクベースの修正を格納することを可能にする。
EPCが予測的マスキングを一貫して支配し、モデル固有の知識をより効率的に活用することにより、より優れた忠実度を著しく低いビットレートで提供することを示した。
論文 参考訳(メタデータ) (2025-10-25T08:18:31Z) - CALR: Corrective Adaptive Low-Rank Decomposition for Efficient Large Language Model Layer Compression [0.0]
大規模言語モデル(LLM)は、その膨大なサイズと計算要求のために、重大なデプロイメント上の課題を提示する。
本稿では,2成分圧縮手法である補正適応低ランク分解(CALR)を導入する。
CALR はパラメータ数を 26.93% から 51.77% に削減でき、元のモデルの性能の59.45% から 90.42% に維持できることを示した。
論文 参考訳(メタデータ) (2025-08-21T13:16:02Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - Unified Multivariate Gaussian Mixture for Efficient Neural Image
Compression [151.3826781154146]
先行変数と超優先度を持つ潜伏変数は、変動画像圧縮において重要な問題である。
ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。
当社のモデルでは、速度歪曲性能が向上し、圧縮速度が3.18倍に向上した。
論文 参考訳(メタデータ) (2022-03-21T11:44:17Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - On Biased Compression for Distributed Learning [55.89300593805943]
バイアス圧縮機が単一ノードと分散設定の両方において線形収束率をもたらすことを初めて示す。
理論的保証と実用性能を期待できる新しいバイアス圧縮機を提案する。
論文 参考訳(メタデータ) (2020-02-27T19:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。