論文の概要: ResSVD: Residual Compensated SVD for Large Language Model Compression
- arxiv url: http://arxiv.org/abs/2505.20112v1
- Date: Mon, 26 May 2025 15:14:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.556537
- Title: ResSVD: Residual Compensated SVD for Large Language Model Compression
- Title(参考訳): ResSVD: 大規模言語モデル圧縮のための残差補償SVD
- Authors: Haolei Bai, Siyong Jian, Tuo Liang, Yu Yin, Huan Wang,
- Abstract要約: ResSVDは、大規模言語モデルのための新しい訓練後のSVDベースの圧縮手法である。
トラニケート過程中に発生する残留行列を利用してトラニケート損失を低減する。
固定された全体圧縮比の下で、モデルの最後の数層を選択的に圧縮する。
- 参考スコア(独自算出の注目度): 12.539815070352116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated impressive capabilities in a wide range of downstream natural language processing tasks. Nevertheless, their considerable sizes and memory demands hinder practical deployment, underscoring the importance of developing efficient compression strategies. Singular value decomposition (SVD) decomposes a matrix into orthogonal components, enabling efficient low-rank approximation. This is particularly suitable for LLM compression, where weight matrices often exhibit significant redundancy. However, current SVD-based methods neglect the residual matrix from truncation, resulting in significant truncation loss. Additionally, compressing all layers of the model results in severe performance degradation. To overcome these limitations, we propose ResSVD, a new post-training SVD-based LLM compression method. Specifically, we leverage the residual matrix generated during the truncation process to reduce truncation loss. Moreover, under a fixed overall compression ratio, we selectively compress the last few layers of the model, which mitigates error propagation and significantly improves the performance of compressed models.Comprehensive evaluations of ResSVD on diverse LLM families and multiple benchmark datasets indicate that ResSVD consistently achieves superior performance over existing counterpart methods, demonstrating its practical effectiveness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い下流自然言語処理タスクにおいて印象的な機能を示している。
それでも、そのかなりのサイズとメモリ要求は、効率的な圧縮戦略を開発することの重要性を強調し、実践的な展開を妨げている。
特異値分解(SVD)は行列を直交成分に分解し、効率的な低ランク近似を可能にする。
これはLLM圧縮に特に適しており、重量行列は大きな冗長性を示すことが多い。
しかし、現在のSVDベースの手法は、残留行列をトランケーションから無視し、大きなトランケーション損失をもたらす。
さらに、モデルのすべてのレイヤを圧縮すると、パフォーマンスが大幅に低下する。
これらの制約を克服するため,新たなSVDに基づくLLM圧縮手法であるResSVDを提案する。
具体的には, トラニケート過程中に発生する残留行列を活用し, トラニケート損失を低減する。
さらに, モデルの最後の数層を選択的に圧縮し, 誤差伝搬を緩和し, 圧縮モデルの性能を著しく向上させる。
関連論文リスト
- Optimizing Singular Spectrum for Large Language Model Compression [95.7621116637755]
SVDの分解したコンポーネントをデータ駆動で再スケールする新しい圧縮フレームワークであるSoCoを紹介する。
学習可能な特異スペクトルのおかげで、SoCoは重要度スコアに応じて成分を適応的にプーンする。
複数のLLMおよびベンチマークでの実験的な評価は、SoCoがモデル圧縮における最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2025-02-20T23:18:39Z) - AdaSVD: Adaptive Singular Value Decomposition for Large Language Models [84.60646883395454]
Singular Value Decomposition (SVD) は,大規模言語モデル(LLM)の有望な圧縮手法として登場した。
既存のSVDベースの手法は、SVDトランケーションによって引き起こされるエラーを効果的に軽減するために苦労することが多い。
適応SVDに基づくLLM圧縮手法であるAdaSVDを提案する。
論文 参考訳(メタデータ) (2025-02-03T14:34:37Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - SVD-LLM: Truncation-aware Singular Value Decomposition for Large Language Model Compression [14.818355326032538]
Singular Value Decomposition (SVD)は、LLM(Large Language Models)圧縮のための有望なソリューションを提供する。
しかし、より小さな特異値の切り抜きは、圧縮損失が増加し、SVD切り込み後の圧縮重量の更新が欠如する可能性がある。
本稿では,既存の手法の限界に対処するSVD-LLM法を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:31:18Z) - Numerical Optimizations for Weighted Low-rank Estimation on Language
Model [73.12941276331316]
Singular value decomposition (SVD) は、より小さい行列でターゲット行列を近似する最も一般的な圧縮手法の1つである。
標準SVDは行列内のパラメータを同じ重要性で扱うが、これは単純だが非現実的な仮定である。
本手法は,ニューラルベース言語モデルにおいて,現在のSOTA法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-02T00:58:02Z) - Language model compression with weighted low-rank factorization [73.61874728240568]
本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。
結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。
提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-30T21:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。