論文の概要: QuAILoRA: Quantization-Aware Initialization for LoRA
- arxiv url: http://arxiv.org/abs/2410.14713v1
- Date: Wed, 09 Oct 2024 19:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-27 05:11:54.513415
- Title: QuAILoRA: Quantization-Aware Initialization for LoRA
- Title(参考訳): QuAILoRA: LoRAの量子化対応初期化
- Authors: Neal Lawton, Aishwarya Padmakumar, Judith Gaspers, Jack FitzGerald, Anoop Kumar, Greg Ver Steeg, Aram Galstyan,
- Abstract要約: QLoRAは、ベースLLMを定量化することにより、Lolaで大規模言語モデル(LLM)を微調整するメモリコストを削減する。
QLoRAは微調整後のモデル性能に悪影響を及ぼす量子化誤差を導入する。
- 参考スコア(独自算出の注目度): 46.00375834217641
- License:
- Abstract: QLoRA reduces the memory-cost of fine-tuning a large language model (LLM) with LoRA by quantizing the base LLM. However, quantization introduces quantization errors that negatively impact model performance after fine-tuning. In this paper we introduce QuAILoRA, a quantization-aware initialization for LoRA that mitigates this negative impact by decreasing quantization errors at initialization. Our method spends a small amount of computational overhead to compute this quantization-aware initialization, without increasing the memory-cost of fine-tuning. We evaluate our method on several causal language modeling and downstream evaluation tasks using several different model sizes and families. We observe that almost all LLMs fined-tuned with QuAILoRA achieve better validation perplexity. When evaluated on downstream tasks, we find that QuAILoRA yields improvements proportional to the negative effect of quantization error. On average, applying QuAILoRA to 4-bit QLoRA models yields 75% of the validation perplexity decrease and 86% of the downstream task accuracy increase as doubling the quantization precision to 8-bit, without increasing GPU memory utilization during fine-tuning.
- Abstract(参考訳): QLoRAは、ベースLLMを定量化することにより、Lolaで大規模言語モデル(LLM)を微調整するメモリコストを削減する。
しかし、量子化は微調整後のモデル性能に悪影響を及ぼす量子化誤差をもたらす。
本稿では、初期化時の量子化誤差を低減し、この負の影響を緩和する量子化対応LoRAの初期化であるQuAILoRAを紹介する。
本手法は,微調整のメモリコストを増大させることなく,この量子化を意識した初期化を計算するための計算オーバーヘッドを少なくする。
本手法は,複数のモデルサイズと家族を用いて,複数の因果言語モデリングおよび下流評価タスクについて評価する。
我々は,QuAILoRAで微調整されたほとんどのLLMが,より複雑な検証を実現することを観察した。
下流タスクで評価すると、QuAILoRAは量子化誤差の負の効果に比例して改善をもたらす。
平均して、QuAILoRAを4ビットQLoRAモデルに適用すると、検証の難易度が75%減少し、ダウンストリームタスクの精度が8ビットに倍増する。
関連論文リスト
- Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients [86.40635601953446]
量子化と低ランク投影を組み合わせることでメモリ使用量を大幅に削減する新しい手法であるQ-Galoreを導入する。
本稿では,Q-Galoreがメモリ効率に優れた競合性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-11T08:42:58Z) - ApiQ: Finetuning of 2-Bit Quantized Large Language Model [12.328293460903911]
ApiQは、LoRAコンポーネントを並列に初期化し、LLMの重みを定量化することで、失われた情報を量子化から復元するように設計されている。
様々なビット幅にわたって優れた微調整結果が得られる。
論文 参考訳(メタデータ) (2024-02-07T09:36:54Z) - LQER: Low-Rank Quantization Error Reconstruction for LLMs [13.205129808742862]
本稿では,量子化と低ランク近似を組み合わせたLQER(Low-rank Quantization Error Reduction)を導入する。
既存の方法とは異なり、LQERの計算パターンは特別なScatterとGatherプロセスを必要としない。
我々のW4A8 LLMは6つの人気下流タスクでほぼ無作為に性能を向上する一方、1.36$times$のハードウェアリソースは最先端の最先端手法よりも少ない。
論文 参考訳(メタデータ) (2024-02-04T10:59:52Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models [104.23434818428062]
我々は、事前訓練されたモデルに量子化とLoRA微調整を併用するシナリオに焦点を当てる。
本稿では,新しい量子化フレームワークであるLoftQ(LoRA-Fine-Tuning-Aware Quantization)を提案する。
実験の結果,本手法は有効であり,既存の量子化法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T18:34:08Z) - INT2.1: Towards Fine-Tunable Quantized Large Language Models with Error
Correction through Low-Rank Adaptation [5.837035655563323]
本稿では,微調整されたVRAM要求を劇的に削減し,量子化された大言語モデルにおける量子化誤差を補正する手法を提案する。
提案手法は, 最大5.6倍のメモリ要求を削減し, 一般向けラップトップ上で70億パラメータのLLM(Large Language Model)を微調整することができる。
論文 参考訳(メタデータ) (2023-06-13T22:25:35Z) - QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。
QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する
最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文 参考訳(メタデータ) (2023-05-23T17:50:33Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。