論文の概要: SVD-LLM: Truncation-aware Singular Value Decomposition for Large Language Model Compression
- arxiv url: http://arxiv.org/abs/2403.07378v3
- Date: Mon, 1 Apr 2024 15:04:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 08:19:18.764737
- Title: SVD-LLM: Truncation-aware Singular Value Decomposition for Large Language Model Compression
- Title(参考訳): SVD-LLM:大規模言語モデル圧縮のためのトランケーション対応特異値分解
- Authors: Xin Wang, Yu Zheng, Zhongwei Wan, Mi Zhang,
- Abstract要約: 大規模言語モデル(LLM)のための新しいSVDベースの圧縮手法であるSVD-LLMを提案する。
SVD-LLMは、特異値と圧縮損失の直接マッピングを保証するために、トラクション対応のデータホワイトニング戦略を組み込んでいる。
以上の結果から, SVD-LLMは最先端技術, 特に高モデル圧縮比よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 14.818355326032538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancements in Large Language Models (LLMs) have been hindered by their substantial sizes, which necessitate LLM compression methods for practical deployment. Singular Value Decomposition (SVD) offers a promising solution for LLM compression. However, state-of-the-art SVD-based LLM compression methods have two key limitations: truncating smaller singular values may lead to higher compression loss, and the lack of update on the compressed weight after SVD truncation. In this work, we propose SVD-LLM, a new SVD-based LLM compression method that addresses the limitations of existing methods. SVD-LLM incorporates a truncation-aware data whitening strategy to ensure a direct mapping between singular values and compression loss. Moreover, SVD-LLM adopts a layer-wise closed-form model parameter update strategy to compensate for accuracy degradation under high compression ratios. We evaluate SVD-LLM on a total of 10 datasets and eight models from three different LLM families at four different scales. Our results demonstrate the superiority of SVD-LLM over state-of-the-arts, especially at high model compression ratios.
- Abstract(参考訳): 大規模言語モデル (LLMs) の進歩は, LLM 圧縮法を実用的展開に必要としていた, 相当なサイズによって妨げられている。
Singular Value Decomposition (SVD)は、LLM圧縮のための有望なソリューションを提供する。
しかし、最先端のSVDベースのLLM圧縮法には、2つの重要な制限がある: より小さい特異値の切り抜きは、圧縮損失を増大させ、SVDの切り抜き後の圧縮重量の更新が欠如する。
本研究では,既存の手法の制約に対処する新たなSVD-LLM圧縮手法であるSVD-LLMを提案する。
SVD-LLMは、特異値と圧縮損失の直接マッピングを保証するために、トラクション対応のデータホワイトニング戦略を組み込んでいる。
さらに, SVD-LLMでは, 高圧縮比下での精度劣化を補償するために, 階層単位の閉形式モデル更新戦略を採用している。
SVD-LLMを4つの異なるスケールで3つのLLMファミリーから合計10のデータセットと8つのモデルで評価した。
以上の結果から, SVD-LLMは最先端技術, 特に高モデル圧縮比よりも優れていることが示された。
関連論文リスト
- EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [79.56709262189953]
EoRAは、圧縮されたLLaMA2/3モデルの様々なタスクにおけるエラーを補償する従来の手法より一貫して優れている。
EoRAは、圧縮エラーを補うスケーラブルでトレーニング不要なソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Basis Sharing: Cross-Layer Parameter Sharing for Large Language Model Compression [5.206085750261924]
大規模言語モデル(LLM)は、推論においてかなりの量のメモリストレージを必要とする。
本稿では,特異値分解を伴う異なる層間のパラメータ共有について検討する。
総合的な実験により、Basis Sharingは最先端のSVDベースの圧縮アプローチより優れていることが示された。
論文 参考訳(メタデータ) (2024-10-02T14:30:02Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization [40.15915011575071]
低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。
大型モデルの低ランク特性に関する実証的研究を行う。
大規模言語モデルに適した低ランク圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-05-17T08:27:12Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - Numerical Optimizations for Weighted Low-rank Estimation on Language
Model [73.12941276331316]
Singular value decomposition (SVD) は、より小さい行列でターゲット行列を近似する最も一般的な圧縮手法の1つである。
標準SVDは行列内のパラメータを同じ重要性で扱うが、これは単純だが非現実的な仮定である。
本手法は,ニューラルベース言語モデルにおいて,現在のSOTA法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-02T00:58:02Z) - Language model compression with weighted low-rank factorization [73.61874728240568]
本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。
結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。
提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-30T21:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。