論文の概要: Memory-Efficient Fine-Tuning of Compressed Large Language Models via
sub-4-bit Integer Quantization
- arxiv url: http://arxiv.org/abs/2305.14152v2
- Date: Sat, 28 Oct 2023 11:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 22:11:51.621498
- Title: Memory-Efficient Fine-Tuning of Compressed Large Language Models via
sub-4-bit Integer Quantization
- Title(参考訳): サブ4ビット整数量子化による圧縮大言語モデルのメモリ効率向上
- Authors: Jeonghoon Kim, Jung Hyun Lee, Sungdong Kim, Joonsuk Park, Kang Min
Yoo, Se Jung Kwon, Dongsoo Lee
- Abstract要約: 大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。
本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
- 参考スコア(独自算出の注目度): 27.79783067245817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) face the challenges in fine-tuning and
deployment due to their high memory demands and computational costs. While
parameter-efficient fine-tuning (PEFT) methods aim to reduce the memory usage
of the optimizer state during fine-tuning, the inherent size of pre-trained LLM
weights continues to be a pressing concern. Even though quantization techniques
are widely proposed to ease memory demands and accelerate LLM inference, most
of these techniques are geared towards the deployment phase. To bridge this
gap, this paper presents Parameter-Efficient and Quantization-aware Adaptation
(PEQA) - a simple yet effective method that combines the advantages of PEFT
with quantized LLMs. By updating solely the quantization scales, PEQA can be
directly applied to quantized LLMs, ensuring seamless task transitions.
Parallel to existing PEFT methods, PEQA significantly reduces the memory
overhead associated with the optimizer state. Furthermore, it leverages the
advantages of quantization to substantially reduce model sizes. Even after
fine-tuning, the quantization structure of a PEQA-tuned LLM remains intact,
allowing for accelerated inference on the deployment stage. We employ
PEQA-tuning for task-specific adaptation on LLMs with up to 65 billion
parameters. To assess the logical reasoning and language comprehension of
PEQA-tuned LLMs, we fine-tune low-bit quantized LLMs using a instruction
dataset. Our results show that even when LLMs are quantized to below 4-bit
precision, their capabilities in language modeling, few-shot in-context
learning, and comprehension can be resiliently restored to (or even improved
over) their full-precision original performances with PEQA.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高いメモリ要求と計算コストのために微調整とデプロイメントの課題に直面している。
パラメータ効率のよい微調整法(PEFT)は、微調整中の最適化状態のメモリ使用量を減らすことを目的としているが、事前訓練されたLCM重みの固有のサイズは、引き続き懸念されている。
メモリ要求の緩和とLCM推論の高速化のために量子化技術が広く提案されているが、これらの技術のほとんどは展開フェーズに向けている。
このギャップを埋めるために,PEFT と量子化 LLM の利点を組み合わせた単純かつ効果的な手法であるパラメータ効率・量子化認識適応(PEQA)を提案する。
量子化スケールのみを更新することにより、PEQAは量子化LDMに直接適用でき、シームレスなタスク遷移が保証される。
既存のPEFTメソッドと並行して、PEQAはオプティマイザ状態に関連するメモリオーバーヘッドを大幅に削減する。
さらに、量子化の利点を活用して、モデルのサイズを大幅に削減する。
微調整後も、PEQAを調整したLLMの量子化構造はそのままであり、デプロイ段階での推論が高速化される。
最大65億のパラメータを持つLLM上でのタスク固有適応にPEQAチューニングを用いる。
PEQAをチューニングしたLLMの論理的推論と言語理解を評価するために,命令データセットを用いて低ビット量子化LLMを微調整する。
その結果、LLMを4ビット未満の精度で量子化しても、言語モデリング、少数ショットインコンテキスト学習、理解能力はPEQAで完全精度のオリジナルパフォーマンスに回復(あるいは改善)可能であることがわかった。
関連論文リスト
- On the Compressibility of Quantized Large Language Models [13.443384050034922]
大規模言語モデル(LLM)は、エッジまたはモバイルデバイスにデプロイされ、データプライバシとリアルタイム処理機能を提供する。
LLMは、エッジやモバイルデバイスの限られたメモリに完全に収まるには大きすぎるかもしれないし、推論を完了するには、部分的にストレージからロードする必要がある。
データ圧縮技術を適用してデータ移動を減らし、メモリ制約デバイス上での量子化LDMの推論を高速化する。
論文 参考訳(メタデータ) (2024-03-03T03:27:07Z) - A Comprehensive Evaluation of Quantization Strategies for Large Language
Models [44.14607761793267]
大規模言語モデル(LLM)におけるパラメータの数を増やすことで、ダウンストリームタスクのパフォーマンスが向上するが、計算とメモリコストが上昇する。
モデルウェイトやアクティベーションに必要なビットを最小性能で削減する量子化技術が普及している。
本稿では,知識とキャパシティ,(2)アライメント,(3)効率の3つの重要な次元からなる構造化評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-26T17:45:36Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - OneBit: Towards Extremely Low-bit Large Language Models [69.15388378646395]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは、堅牢なトレーニングプロセスで優れたパフォーマンス(少なくとも、非量子化パフォーマンスの83%)を達成する。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - L4Q: Parameter Efficient Quantization-Aware Training on Large Language
Models via LoRA-wise LSQ [5.962184741057505]
学習後量子化(PTQ)と量子化対応学習(QAT)の手法は,資源制約のあるシナリオで人気を集めている。
パラメータ効率を考慮した量子化学習アルゴリズムL4Qを提案する。
論文 参考訳(メタデータ) (2024-02-07T14:35:05Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [55.61026644837707]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - PB-LLM: Partially Binarized Large Language Models [14.244537605866864]
本稿では,Large Language Models (LLMs) 圧縮のために,モデル重みを1ビットに圧縮するネットワークバイナライゼーションについて検討する。
本稿では,LLMの言語的推論能力を維持しつつ,極端に低ビットの量子化を実現する手法として,PB-LLM(Partial-Binarized LLM)を提案する。
論文 参考訳(メタデータ) (2023-09-29T14:35:27Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language
Models [59.176603429408225]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
最近のPTQ法はメモリフットプリントの削減に有効であるが、極端に低ビットの量子化に対処できない。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。