論文の概要: LORD: Low Rank Decomposition Of Monolingual Code LLMs For One-Shot
Compression
- arxiv url: http://arxiv.org/abs/2309.14021v1
- Date: Mon, 25 Sep 2023 10:35:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 16:12:27.199301
- Title: LORD: Low Rank Decomposition Of Monolingual Code LLMs For One-Shot
Compression
- Title(参考訳): LORD:ワンショット圧縮のためのモノリンガルコードLLMの低ランク分解
- Authors: Ayush Kaushal, Tejas Vaidhya, Irina Rish
- Abstract要約: 低ランク分解(LoRD)による単言語コード生成のための大言語モデル(LLM)圧縮の可能性について検討する。
次に、ローランク分解(LoRD)を使用して、StarCoder 16B から 13.2B パラメータをドロップなしで圧縮し、HumanEval Pass@1 スコアを最小値で 12.3B に圧縮します。
- 参考スコア(独自算出の注目度): 16.901290551711476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low Rank Decomposition of matrix - splitting a large matrix into a product of
two smaller matrix offers a means for compression that reduces the parameters
of a model without sparsification, and hence delivering more speedup on modern
hardware. Moreover, unlike quantization, the compressed linear layers remain
fully differentiable and all the parameters trainable, while being able to
leverage the existing highly efficient kernels over floating point matrices. We
study the potential to compress Large Language Models (LLMs) for monolingual
Code generation via Low Rank Decomposition (LoRD) and observe that ranks for
the linear layers in these models can be reduced by upto 39.58% with less than
1% increase in perplexity. We then use Low Rank Decomposition (LoRD) to
compress StarCoder 16B to 13.2B parameter with no drop and to 12.3B with
minimal drop in HumanEval Pass@1 score, in less than 10 minutes on a single
A100. The compressed models speeds up inference by up to 22.35% with just a
single line of change in code over huggingface's implementation with pytorch
backend. Low Rank Decomposition (LoRD) models remain compatible with state of
the art near-lossless quantization method such as SpQR, which allows leveraging
further compression gains of quantization. Lastly, QLoRA over Low Rank
Decomposition (LoRD) model further reduces memory requirements by as much as
21.2% over vanilla QLoRA while offering similar gains from parameter efficient
fine tuning. Our work shows Low Rank Decomposition (LoRD) as a promising new
paradigm for LLM compression.
- Abstract(参考訳): 行列の低ランク分解 - 大きな行列を2つの小さな行列の積に分割することで、スペース化せずにモデルのパラメータを減らし、現代のハードウェアでより多くのスピードアップをもたらす圧縮手段を提供する。
さらに量子化とは異なり、圧縮線形層は完全に微分可能であり、全てのパラメータは訓練可能であるが、浮動小数点行列上で既存の高効率カーネルを活用できる。
低階分解(lord)による単言語コード生成のための大言語モデル(llms)の圧縮の可能性について検討し、これらのモデルの線形層に対するランクを最大39.58%削減でき、パープレキシティは1%未満である。
次に、ローランク分解(LoRD)を使用して、StarCoder 16B から 13.2B パラメータをドロップなしで圧縮し、HumanEval Pass@1 スコアを最小値で 12.3B に圧縮します。
圧縮されたモデルは、pytorchバックエンドによるhughingfaceの実装よりも1行のコード変更だけで、推論を最大22.35%高速化する。
低ランク分解(LoRD)モデルは、SpQRのような最先端の量子化手法と互換性があり、量子化のさらなる圧縮ゲインを活用することができる。
最後に、低ランク分解(LoRD)モデル上のQLoRAにより、バニラQLoRAよりも最大21.2%のメモリ要求が削減され、パラメータ効率の良い微調整による同様の利得が提供される。
我々の研究は、LLM圧縮の新しいパラダイムとして低ランク分解(LoRD)を示す。
関連論文リスト
- LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models [9.244526043014098]
大規模言語モデル(LLM)は困難なタスクにおいて優れた性能を示すが、大きな記憶と計算資源を必要とすることが多い。
本研究では,トランスフォーマーのマルチヘッド自己注意層(MHA)が顕著な低ランク構造を示すことを示す。
低ランク行列と構造化プルーニング(LoRAP)を有機的に組み合わせた混合圧縮モデルを提案する。
論文 参考訳(メタデータ) (2024-04-15T11:53:22Z) - OneBit: Towards Extremely Low-bit Large Language Models [69.15388378646395]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは、堅牢なトレーニングプロセスで優れたパフォーマンス(少なくとも、非量子化パフォーマンスの83%)を達成する。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient
Language Model Finetuning [73.03525981320749]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - Training Acceleration of Low-Rank Decomposed Networks using Sequential
Freezing and Rank Quantization [5.914653351242832]
そこで本研究では,分解に少数のランクを使用することなく,低階分解モデルを高速化する2つの手法を提案する。
これらの手法には、ランク最適化とシーケンシャルな層凍結が含まれる。
実験によると、これらの手法は、トレーニング中に60%まで、組み合わせると推論時に37%まで、モデルのスループットを向上させることができる。
論文 参考訳(メタデータ) (2023-09-07T16:33:42Z) - Low-Rank Prune-And-Factorize for Language Model Compression [18.088550230146247]
マトリックスの分解は、中程度から高い圧縮速度で良好な性能を維持することができない。
スパシティ対応SVDとミックスランクファインチューニングの2つの手法を提案する。
論文 参考訳(メタデータ) (2023-06-25T07:38:43Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。