論文の概要: QLoRA: Efficient Finetuning of Quantized LLMs
- arxiv url: http://arxiv.org/abs/2305.14314v1
- Date: Tue, 23 May 2023 17:50:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 13:47:35.033217
- Title: QLoRA: Efficient Finetuning of Quantized LLMs
- Title(参考訳): QLoRA:量子化LDMの効率的な微細加工
- Authors: Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer
- Abstract要約: 我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。
QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する
最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
- 参考スコア(独自算出の注目度): 66.58009990713134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present QLoRA, an efficient finetuning approach that reduces memory usage
enough to finetune a 65B parameter model on a single 48GB GPU while preserving
full 16-bit finetuning task performance. QLoRA backpropagates gradients through
a frozen, 4-bit quantized pretrained language model into Low Rank
Adapters~(LoRA). Our best model family, which we name Guanaco, outperforms all
previous openly released models on the Vicuna benchmark, reaching 99.3% of the
performance level of ChatGPT while only requiring 24 hours of finetuning on a
single GPU. QLoRA introduces a number of innovations to save memory without
sacrificing performance: (a) 4-bit NormalFloat (NF4), a new data type that is
information theoretically optimal for normally distributed weights (b) double
quantization to reduce the average memory footprint by quantizing the
quantization constants, and (c) paged optimziers to manage memory spikes. We
use QLoRA to finetune more than 1,000 models, providing a detailed analysis of
instruction following and chatbot performance across 8 instruction datasets,
multiple model types (LLaMA, T5), and model scales that would be infeasible to
run with regular finetuning (e.g. 33B and 65B parameter models). Our results
show that QLoRA finetuning on a small high-quality dataset leads to
state-of-the-art results, even when using smaller models than the previous
SoTA. We provide a detailed analysis of chatbot performance based on both human
and GPT-4 evaluations showing that GPT-4 evaluations are a cheap and reasonable
alternative to human evaluation. Furthermore, we find that current chatbot
benchmarks are not trustworthy to accurately evaluate the performance levels of
chatbots. A lemon-picked analysis demonstrates where Guanaco fails compared to
ChatGPT. We release all of our models and code, including CUDA kernels for
4-bit training.
- Abstract(参考訳): QLoRAは,1つの48GB GPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減し,全16ビットの微調整タスク性能を保っている。
QLoRAは、凍結した4ビットの量子化事前訓練言語モデルを通して勾配をローランクアダプタ~(LoRA)にバックプロパゲートする。
私たちがguanacoと名づけた最高のモデルファミリは、これまでのvicunaベンチマークでリリースされたすべてのモデルよりも優れており、単一のgpuで24時間のみ微調整しながら、chatgptのパフォーマンスレベルの99.3%に達しています。
QLoRAは、パフォーマンスを犠牲にすることなくメモリを節約するための多くのイノベーションを紹介している。
(a) 4-bit NormalFloat (NF4) 正規分布重みに対して理論的に最適な情報である新しいデータ型
b) 量子化定数を定量化することにより平均メモリフットプリントを削減するための二重量子化
(c) メモリスパイクを管理するオプティマイザ。
我々はQLoRAを使用して1000以上のモデルを微調整し、8つの命令データセット、複数のモデルタイプ(LLaMA、T5)、および通常の微調整で実行できないモデルスケール(33B、65Bパラメータモデルなど)にわたる命令追従とチャットボットのパフォーマンスを詳細に分析する。
以上の結果から,QLoRAファインタニングは,従来のSoTAよりも小さなモデルを用いた場合であっても,最先端のデータセットに導かれることがわかった。
本稿では,人間とGPT-4の評価に基づくチャットボットの性能の詳細な分析を行い,GPT-4の評価が人間の評価に対する安価で合理的な代替手段であることを示す。
さらに、現在のチャットボットベンチマークでは、チャットボットのパフォーマンスレベルを正確に評価することは信用できない。
レモンピクチャード分析は、グアナコがChatGPTと比較してどこで失敗したかを示している。
4ビットトレーニング用のCUDAカーネルを含む、すべてのモデルとコードをリリースしています。
関連論文リスト
- QuAILoRA: Quantization-Aware Initialization for LoRA [46.00375834217641]
QLoRAは、ベースLLMを定量化することにより、Lolaで大規模言語モデル(LLM)を微調整するメモリコストを削減する。
QLoRAは微調整後のモデル性能に悪影響を及ぼす量子化誤差を導入する。
論文 参考訳(メタデータ) (2024-10-09T19:06:37Z) - Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients [86.40635601953446]
量子化と低ランク投影を組み合わせることでメモリ使用量を大幅に削減する新しい手法であるQ-Galoreを導入する。
本稿では,Q-Galoreがメモリ効率に優れた競合性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-11T08:42:58Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - A contextual analysis of multi-layer perceptron models in classifying
hand-written digits and letters: limited resources [0.0]
我々は,前処理や特徴抽出を行わずに,終端から終端までのバニラニューラルネットワーク(MLP)アプローチを純粋に検証した。
基礎的なデータマイニング操作は,計算時間の観点からモデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2021-07-05T04:30:37Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。