論文の概要: QLoRA: Efficient Finetuning of Quantized LLMs
- arxiv url: http://arxiv.org/abs/2305.14314v1
- Date: Tue, 23 May 2023 17:50:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 13:47:35.033217
- Title: QLoRA: Efficient Finetuning of Quantized LLMs
- Title(参考訳): QLoRA:量子化LDMの効率的な微細加工
- Authors: Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer
- Abstract要約: 我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。
QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する
最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
- 参考スコア(独自算出の注目度): 66.58009990713134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present QLoRA, an efficient finetuning approach that reduces memory usage
enough to finetune a 65B parameter model on a single 48GB GPU while preserving
full 16-bit finetuning task performance. QLoRA backpropagates gradients through
a frozen, 4-bit quantized pretrained language model into Low Rank
Adapters~(LoRA). Our best model family, which we name Guanaco, outperforms all
previous openly released models on the Vicuna benchmark, reaching 99.3% of the
performance level of ChatGPT while only requiring 24 hours of finetuning on a
single GPU. QLoRA introduces a number of innovations to save memory without
sacrificing performance: (a) 4-bit NormalFloat (NF4), a new data type that is
information theoretically optimal for normally distributed weights (b) double
quantization to reduce the average memory footprint by quantizing the
quantization constants, and (c) paged optimziers to manage memory spikes. We
use QLoRA to finetune more than 1,000 models, providing a detailed analysis of
instruction following and chatbot performance across 8 instruction datasets,
multiple model types (LLaMA, T5), and model scales that would be infeasible to
run with regular finetuning (e.g. 33B and 65B parameter models). Our results
show that QLoRA finetuning on a small high-quality dataset leads to
state-of-the-art results, even when using smaller models than the previous
SoTA. We provide a detailed analysis of chatbot performance based on both human
and GPT-4 evaluations showing that GPT-4 evaluations are a cheap and reasonable
alternative to human evaluation. Furthermore, we find that current chatbot
benchmarks are not trustworthy to accurately evaluate the performance levels of
chatbots. A lemon-picked analysis demonstrates where Guanaco fails compared to
ChatGPT. We release all of our models and code, including CUDA kernels for
4-bit training.
- Abstract(参考訳): QLoRAは,1つの48GB GPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減し,全16ビットの微調整タスク性能を保っている。
QLoRAは、凍結した4ビットの量子化事前訓練言語モデルを通して勾配をローランクアダプタ~(LoRA)にバックプロパゲートする。
私たちがguanacoと名づけた最高のモデルファミリは、これまでのvicunaベンチマークでリリースされたすべてのモデルよりも優れており、単一のgpuで24時間のみ微調整しながら、chatgptのパフォーマンスレベルの99.3%に達しています。
QLoRAは、パフォーマンスを犠牲にすることなくメモリを節約するための多くのイノベーションを紹介している。
(a) 4-bit NormalFloat (NF4) 正規分布重みに対して理論的に最適な情報である新しいデータ型
b) 量子化定数を定量化することにより平均メモリフットプリントを削減するための二重量子化
(c) メモリスパイクを管理するオプティマイザ。
我々はQLoRAを使用して1000以上のモデルを微調整し、8つの命令データセット、複数のモデルタイプ(LLaMA、T5)、および通常の微調整で実行できないモデルスケール(33B、65Bパラメータモデルなど)にわたる命令追従とチャットボットのパフォーマンスを詳細に分析する。
以上の結果から,QLoRAファインタニングは,従来のSoTAよりも小さなモデルを用いた場合であっても,最先端のデータセットに導かれることがわかった。
本稿では,人間とGPT-4の評価に基づくチャットボットの性能の詳細な分析を行い,GPT-4の評価が人間の評価に対する安価で合理的な代替手段であることを示す。
さらに、現在のチャットボットベンチマークでは、チャットボットのパフォーマンスレベルを正確に評価することは信用できない。
レモンピクチャード分析は、グアナコがChatGPTと比較してどこで失敗したかを示している。
4ビットトレーニング用のCUDAカーネルを含む、すべてのモデルとコードをリリースしています。
関連論文リスト
- GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [139.19973370560533]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - Memory Efficient Optimizers with 4-bit States [22.605392665667136]
我々は、第1モーメントと第2モーメントの詳細な実験分析を通して、状態のビット幅を4ビットまで押し下げる。
ブロックサイズを小さくし,行次情報と列次情報の両方を用いて量子化を改善することを提案する。
我々の4ビットは、自然言語理解、機械翻訳、画像分類、インストラクションチューニングなど、様々なベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-09-04T10:27:17Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - A contextual analysis of multi-layer perceptron models in classifying
hand-written digits and letters: limited resources [0.0]
我々は,前処理や特徴抽出を行わずに,終端から終端までのバニラニューラルネットワーク(MLP)アプローチを純粋に検証した。
基礎的なデータマイニング操作は,計算時間の観点からモデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2021-07-05T04:30:37Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。