論文の概要: Compressing Large Language Models using Low Rank and Low Precision Decomposition
- arxiv url: http://arxiv.org/abs/2405.18886v1
- Date: Wed, 29 May 2024 08:42:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 17:59:30.310258
- Title: Compressing Large Language Models using Low Rank and Low Precision Decomposition
- Title(参考訳): 低ランク・低精度分解を用いた大規模言語モデル圧縮
- Authors: Rajarshi Saha, Naomi Sagan, Varun Srivastava, Andrea J. Goldsmith, Mert Pilanci,
- Abstract要約: この研究は、新しい訓練後のLLM圧縮アルゴリズムである$rm CALDERA$を導入している。
重量行列 $mathbfW$ の固有の低ランク構造を利用して、低ランクで低精度な分解によってそれを近似する。
その結果、LlaMa-$2$7$B/$70$B、LlaMa-$3$8$Bの圧縮は、既存のトレーニング後の圧縮技術より優れていることが示された。
- 参考スコア(独自算出の注目度): 46.30918750022739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prohibitive sizes of Large Language Models (LLMs) today make it difficult to deploy them on memory-constrained edge devices. This work introduces $\rm CALDERA$ -- a new post-training LLM compression algorithm that harnesses the inherent low-rank structure of a weight matrix $\mathbf{W}$ by approximating it via a low-rank, low-precision decomposition as $\mathbf{W} \approx \mathbf{Q} + \mathbf{L}\mathbf{R}$. Here, $\mathbf{L}$ and $\mathbf{R}$ are low rank factors, and the entries of $\mathbf{Q}$, $\mathbf{L}$ and $\mathbf{R}$ are quantized. The model is compressed by substituting each layer with its $\mathbf{Q} + \mathbf{L}\mathbf{R}$ decomposition, and the zero-shot performance of the compressed model is evaluated. Additionally, $\mathbf{L}$ and $\mathbf{R}$ are readily amenable to low-rank adaptation, consequently enhancing the zero-shot performance. $\rm CALDERA$ obtains this decomposition by formulating it as an optimization problem $\min_{\mathbf{Q},\mathbf{L},\mathbf{R}}\lVert(\mathbf{Q} + \mathbf{L}\mathbf{R} - \mathbf{W})\mathbf{X}^\top\rVert_{\rm F}^2$, where $\mathbf{X}$ is the calibration data, and $\mathbf{Q}, \mathbf{L}, \mathbf{R}$ are constrained to be representable using low-precision formats. Theoretical upper bounds on the approximation error of $\rm CALDERA$ are established using a rank-constrained regression framework, and the tradeoff between compression ratio and model performance is studied by analyzing the impact of target rank and quantization bit budget. Results illustrate that compressing LlaMa-$2$ $7$B/$70$B and LlaMa-$3$ $8$B models obtained using $\rm CALDERA$ outperforms existing post-training LLM compression techniques in the regime of less than $2.5$ bits per parameter. The implementation is available at: \href{https://github.com/pilancilab/caldera}{https://github.com/pilancilab/caldera}.
- Abstract(参考訳): 現在、LLM(Large Language Models)の禁止サイズは、メモリ制約のあるエッジデバイスへのデプロイを困難にしている。
このアルゴリズムは、重量行列 $\mathbf{W}$ の固有の低ランク構造を利用して、低ランクで低精度な分解を $\mathbf{W} \approx \mathbf{Q} + \mathbf{L}\mathbf{R}$ として近似することで、新しい学習後 LLM 圧縮アルゴリズムである $\rm CALDERA$ を導入する。
ここで、$\mathbf{L}$ と $\mathbf{R}$ は低いランク因子であり、$\mathbf{Q}$, $\mathbf{L}$ と $\mathbf{R}$ のエントリは量子化される。
モデルを各層に$\mathbf{Q} + \mathbf{L}\mathbf{R}$分解を代入して圧縮し、圧縮されたモデルのゼロショット性能を評価する。
さらに、$\mathbf{L}$ と $\mathbf{R}$ は容易にローランク適応が可能となり、ゼロショット性能が向上する。
$\rm CALDERA$ はこの分解を最適化問題 $\min_{\mathbf{Q},\mathbf{L},\mathbf{R}}\lVert(\mathbf{Q} + \mathbf{L}\mathbf{R} - \mathbf{W})\mathbf{X}^\top\rVert_{\rm F}^2$ として定式化し、$\mathbf{X}$ はキャリブレーションデータである。
ランク制約回帰フレームワークを用いて,$\rm CALDERA$の近似誤差に関する理論的上限を設定し,目標ランクと量子化ビット予算の影響を分析して,圧縮率とモデル性能のトレードオフについて検討した。
その結果、LlaMa-$2$$7$B/$70$BとLlaMa-$3$8$Bの圧縮は、パラメータあたり2.5ドル以下という既存のトレーニング後のLCM圧縮技術より優れていることが示された。
実装は以下の通りである。 \href{https://github.com/pilancilab/caldera}{https://github.com/pilancilab/caldera}。
関連論文リスト
- Locality Regularized Reconstruction: Structured Sparsity and Delaunay Triangulations [7.148312060227714]
線形表現学習は、その概念的単純さと、圧縮、分類、特徴抽出といったタスクにおける経験的有用性から、広く研究されている。
本研究では、正則化最小二乗回帰問題を解くことにより、$mathbfy$の局所再構成を形成する$mathbfw$を求める。
すべてのレベルの正則化と、$mathbfX$ の列が独自のデラウネー三角形を持つという穏やかな条件の下では、最適係数の非零成分の数は$d+1$ で上界となることを証明している。
論文 参考訳(メタデータ) (2024-05-01T19:56:52Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - SQ Lower Bounds for Learning Mixtures of Linear Classifiers [43.63696593768504]
この問題に対する既知のアルゴリズムは、一様混合の特別な場合であっても、本質的には最善であることを示す。
重要な技術的要素は、独立した関心を持つかもしれない球面設計の新たな構築である。
論文 参考訳(メタデータ) (2023-10-18T10:56:57Z) - Matrix Compression via Randomized Low Rank and Low Precision
Factorization [47.902465710511485]
現代の行列は数十億の要素を巻き込み、そのストレージと処理は計算資源とメモリ使用量の観点から非常に要求される。
この構造を利用して任意の行列 $mathbfA$ as $mathbfLmathbfR$ の低階分解を求めるアルゴリズムを提案する。
LlaMa-7$bの層を圧縮し,画像圧縮におけるアルゴリズムの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-10-17T06:56:57Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Fast Graph Sampling for Short Video Summarization using Gershgorin Disc
Alignment [52.577757919003844]
高速グラフサンプリングの最近の進歩を利用して,短い動画を複数の段落に効率よく要約する問題について検討する。
実験結果から,本アルゴリズムは最先端の手法と同等の映像要約を実現し,複雑さを大幅に低減した。
論文 参考訳(メタデータ) (2021-10-21T18:43:00Z) - Threshold Phenomena in Learning Halfspaces with Massart Noise [56.01192577666607]
ガウス境界の下でのマスアートノイズ付きmathbbRd$におけるPAC学習ハーフスペースの問題について検討する。
この結果は,Massartモデルにおける学習ハーフスペースの複雑さを定性的に特徴づけるものである。
論文 参考訳(メタデータ) (2021-08-19T16:16:48Z) - Minimax Optimal Regression over Sobolev Spaces via Laplacian
Regularization on Neighborhood Graphs [25.597646488273558]
非パラメトリック回帰に対するグラフに基づくアプローチであるラプラシア平滑化の統計的性質について検討する。
ラプラシアン滑らか化が多様体適応であることを証明する。
論文 参考訳(メタデータ) (2021-06-03T01:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。