Fugu-MT 論文翻訳(概要): LORD: Low Rank Decomposition Of Monolingual Code LLMs For One-Shot Compression

論文の概要: LORD: Low Rank Decomposition Of Monolingual Code LLMs For One-Shot Compression

arxiv url: http://arxiv.org/abs/2309.14021v1
Date: Mon, 25 Sep 2023 10:35:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-26 16:12:27.199301
Title: LORD: Low Rank Decomposition Of Monolingual Code LLMs For One-Shot Compression
Title（参考訳）: LORD:ワンショット圧縮のためのモノリンガルコードLLMの低ランク分解
Authors: Ayush Kaushal, Tejas Vaidhya, Irina Rish
Abstract要約: 低ランク分解(LoRD)による単言語コード生成のための大言語モデル(LLM)圧縮の可能性について検討する。次に、ローランク分解(LoRD)を使用して、StarCoder 16B から 13.2B パラメータをドロップなしで圧縮し、HumanEval Pass@1 スコアを最小値で 12.3B に圧縮します。
参考スコア（独自算出の注目度）: 16.901290551711476
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Low Rank Decomposition of matrix - splitting a large matrix into a product of two smaller matrix offers a means for compression that reduces the parameters of a model without sparsification, and hence delivering more speedup on modern hardware. Moreover, unlike quantization, the compressed linear layers remain fully differentiable and all the parameters trainable, while being able to leverage the existing highly efficient kernels over floating point matrices. We study the potential to compress Large Language Models (LLMs) for monolingual Code generation via Low Rank Decomposition (LoRD) and observe that ranks for the linear layers in these models can be reduced by upto 39.58% with less than 1% increase in perplexity. We then use Low Rank Decomposition (LoRD) to compress StarCoder 16B to 13.2B parameter with no drop and to 12.3B with minimal drop in HumanEval Pass@1 score, in less than 10 minutes on a single A100. The compressed models speeds up inference by up to 22.35% with just a single line of change in code over huggingface's implementation with pytorch backend. Low Rank Decomposition (LoRD) models remain compatible with state of the art near-lossless quantization method such as SpQR, which allows leveraging further compression gains of quantization. Lastly, QLoRA over Low Rank Decomposition (LoRD) model further reduces memory requirements by as much as 21.2% over vanilla QLoRA while offering similar gains from parameter efficient fine tuning. Our work shows Low Rank Decomposition (LoRD) as a promising new paradigm for LLM compression.
Abstract（参考訳）: 行列の低ランク分解 - 大きな行列を2つの小さな行列の積に分割することで、スペース化せずにモデルのパラメータを減らし、現代のハードウェアでより多くのスピードアップをもたらす圧縮手段を提供する。さらに量子化とは異なり、圧縮線形層は完全に微分可能であり、全てのパラメータは訓練可能であるが、浮動小数点行列上で既存の高効率カーネルを活用できる。低階分解(lord)による単言語コード生成のための大言語モデル(llms)の圧縮の可能性について検討し、これらのモデルの線形層に対するランクを最大39.58%削減でき、パープレキシティは1%未満である。次に、ローランク分解(LoRD)を使用して、StarCoder 16B から 13.2B パラメータをドロップなしで圧縮し、HumanEval Pass@1 スコアを最小値で 12.3B に圧縮します。圧縮されたモデルは、pytorchバックエンドによるhughingfaceの実装よりも1行のコード変更だけで、推論を最大22.35%高速化する。低ランク分解(LoRD)モデルは、SpQRのような最先端の量子化手法と互換性があり、量子化のさらなる圧縮ゲインを活用することができる。最後に、低ランク分解(LoRD)モデル上のQLoRAにより、バニラQLoRAよりも最大21.2%のメモリ要求が削減され、パラメータ効率の良い微調整による同様の利得が提供される。我々の研究は、LLM圧縮の新しいパラダイムとして低ランク分解(LoRD)を示す。

関連論文リスト

70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
DeltaLLM: Compress LLMs with Low-Rank Deltas between Shared Weights [11.047879241587315]
我々は,LLMのメモリフットプリントを低減するために,新しい訓練後圧縮技術であるDeltaLLMを紹介する。トレーニングでは、進行するモジュール置換法を採用し、低ランクモジュールの軽量なトレーニングは、スクラッチからトレーニングしたLLMと同等の大きさのLLMの性能を達成するのに十分であることを示す。また,同数のパラメータを除去したJointDrop,LaCo,ShortGPT,SliceGPTの圧縮技術よりも優れていた。
論文参考訳（メタデータ） (2025-01-30T18:59:55Z)
Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文参考訳（メタデータ） (2024-11-04T04:58:20Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。 MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文参考訳（メタデータ） (2024-08-19T01:30:14Z)
From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。 WeLore(Weight Low-Rank Projection)を提案する。
論文参考訳（メタデータ） (2024-07-15T21:05:20Z)
Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization [40.15915011575071]
低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。大型モデルの低ランク特性に関する実証的研究を行う。大規模言語モデルに適した低ランク圧縮手法を提案する。
論文参考訳（メタデータ） (2024-05-17T08:27:12Z)
LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文参考訳（メタデータ） (2023-11-20T18:57:41Z)
Training Acceleration of Low-Rank Decomposed Networks using Sequential Freezing and Rank Quantization [5.914653351242832]
そこで本研究では,分解に少数のランクを使用することなく,低階分解モデルを高速化する2つの手法を提案する。これらの手法には、ランク最適化とシーケンシャルな層凍結が含まれる。実験によると、これらの手法は、トレーニング中に60%まで、組み合わせると推論時に37%まで、モデルのスループットを向上させることができる。
論文参考訳（メタデータ） (2023-09-07T16:33:42Z)
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。 SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文参考訳（メタデータ） (2023-06-05T17:53:28Z)
Monarch: Expressive Structured Matrices for Efficient and Accurate Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文参考訳（メタデータ） (2022-04-01T17:37:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。