論文の概要: CALR: Corrective Adaptive Low-Rank Decomposition for Efficient Large Language Model Layer Compression
- arxiv url: http://arxiv.org/abs/2508.16680v1
- Date: Thu, 21 Aug 2025 13:16:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.115641
- Title: CALR: Corrective Adaptive Low-Rank Decomposition for Efficient Large Language Model Layer Compression
- Title(参考訳): CALR:高効率大言語モデル層圧縮のための補正適応型低ランク分解法
- Authors: Muchammad Daniyal Kautsar, Afra Majida Hariono, Widyawan, Syukron Abu Ishaq Alfarozi, Kuntpong Wararatpanya,
- Abstract要約: 大規模言語モデル(LLM)は、その膨大なサイズと計算要求のために、重大なデプロイメント上の課題を提示する。
本稿では,2成分圧縮手法である補正適応低ランク分解(CALR)を導入する。
CALR はパラメータ数を 26.93% から 51.77% に削減でき、元のモデルの性能の59.45% から 90.42% に維持できることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) present significant deployment challenges due to their immense size and computational requirements. Model compression techniques are essential for making these models practical for resource-constrained environments. A prominent compression strategy is low-rank factorization via Singular Value Decomposition (SVD) to reduce model parameters by approximating weight matrices. However, standard SVD focuses on minimizing matrix reconstruction error, often leading to a substantial loss of the model's functional performance. This performance degradation occurs because existing methods do not adequately correct for the functional information lost during compression. To address this gap, we introduce Corrective Adaptive Low-Rank Decomposition (CALR), a two-component compression approach. CALR combines a primary path of SVD-compressed layers with a parallel, learnable, low-rank corrective module that is explicitly trained to recover the functional residual error. Our experimental evaluation on SmolLM2-135M, Qwen3-0.6B, and Llama-3.2-1B, demonstrates that CALR can reduce parameter counts by 26.93% to 51.77% while retaining 59.45% to 90.42% of the original model's performance, consistently outperforming LaCo, ShortGPT, and LoSparse. CALR's success shows that treating functional information loss as a learnable signal is a highly effective compression paradigm. This approach enables the creation of significantly smaller, more efficient LLMs, advancing their accessibility and practical deployment in real-world applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、その膨大なサイズと計算要求のために、重大なデプロイメント上の課題を呈する。
モデル圧縮技術は、これらのモデルを資源制約のある環境に実用的なものにするために不可欠である。
顕著な圧縮戦略は、重み行列を近似することでモデルパラメータを減らすために、Singular Value Decomposition (SVD) による低ランク分解である。
しかし、標準的なSVDは行列再構成誤差の最小化に重点を置いており、しばしばモデルの性能が大幅に低下する。
この性能劣化は、既存手法が圧縮時に失われた機能情報を適切に補正していないため起こる。
このギャップに対処するために,2成分圧縮手法である補正適応低ランク分解(CALR)を導入する。
CALRはSVD圧縮層の主要経路を並列で学習可能な低ランク補正モジュールと組み合わせ、機能的残差の回復を明示的に訓練する。
SmolLM2-135M, Qwen3-0.6B, Llama-3.2-1B を実験的に評価したところ, CALR は元のモデルの性能の 59.45% から 90.42% を保ちながらパラメータ数を 26.93% から 51.77% に削減できることがわかった。
CALRの成功は、機能的情報損失を学習可能な信号として扱うことが、非常に効果的な圧縮パラダイムであることを示している。
このアプローチにより、より小さく、より効率的なLLMの作成が可能になり、現実のアプリケーションにおけるアクセシビリティと実践的なデプロイが促進される。
関連論文リスト
- ResSVD: Residual Compensated SVD for Large Language Model Compression [12.539815070352116]
大規模言語モデル(LLM)は、幅広い下流自然言語処理タスクにおいて印象的な機能を示している。
本稿では,ポストトレーニング後のSVDに基づくLLM圧縮手法であるResSVDを提案する。
トラニケート過程中に発生する残留行列を利用してトラニケート損失を低減する。
論文 参考訳(メタデータ) (2025-05-26T15:14:54Z) - GRASP: Replace Redundant Layers with Adaptive Singular Parameters for Efficient Model Compression [26.51079570548107]
本稿では,新しい圧縮フレームワークGRASP(Gradient-based Retention of Adaptive Singular Parameters)を提案する。
冗長なレイヤを最小限のパラメータセットで置き換えることによって、GRASPは、最小限のオーバーヘッドで強力なパフォーマンスを維持しながら、効率的な圧縮を実現する。
論文 参考訳(メタデータ) (2024-12-31T08:22:21Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Adaptive Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization [42.53133823994923]
低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。
大型モデルの低ランク特性に関する実証的研究を行う。
大規模言語モデルに適した低ランク圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-05-17T08:27:12Z) - Language model compression with weighted low-rank factorization [73.61874728240568]
本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。
結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。
提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-30T21:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。