論文の概要: L4Q: Parameter Efficient Quantization-Aware Training on Large Language
Models via LoRA-wise LSQ
- arxiv url: http://arxiv.org/abs/2402.04902v1
- Date: Wed, 7 Feb 2024 14:35:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 15:04:14.896976
- Title: L4Q: Parameter Efficient Quantization-Aware Training on Large Language
Models via LoRA-wise LSQ
- Title(参考訳): L4Q: LoRA-wise LSQを用いた大規模言語モデルのパラメータ効率的な量子化学習
- Authors: Hyesung Jeon, Yulhwa Kim, Jae-joon Kim
- Abstract要約: 学習後量子化(PTQ)と量子化対応学習(QAT)の手法は,資源制約のあるシナリオで人気を集めている。
パラメータ効率を考慮した量子化学習アルゴリズムL4Qを提案する。
- 参考スコア(独自算出の注目度): 5.962184741057505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization (PTQ) and quantization-aware training (QAT)
methods are gaining popularity in mitigating the high memory and computational
costs associated with Large Language Models (LLMs). In resource-constrained
scenarios, PTQ, with its reduced training overhead, is often preferred over
QAT, despite the latter's potential for higher accuracy. Meanwhile,
parameter-efficient fine-tuning (PEFT) methods like low-rank adaptation (LoRA)
have been introduced, and recent efforts have explored quantization-aware PEFT
techniques. However, these approaches may lack generality due to their reliance
on the pre-quantized model's configuration. Their effectiveness may be
compromised by non-linearly quantized or mixed-precision weights, and the
retraining of specific quantization parameters might impede optimal
performance. To address these challenges, we propose L4Q, an algorithm for
parameter-efficient quantization-aware training. L4Q leverages LoRA-wise
learned quantization step size for LLMs, aiming to enhance generality. The
simultaneous quantization-and-fine-tuning process of L4Q is applicable to
high-precision models, yielding linearly quantized weights with superior
accuracy. Our experiments, conducted on the LLaMA and LLaMA2 model families
using an instructional dataset, showcase L4Q's capabilities in language
comprehension and few-shot in-context learning, achieving sub-4-bit precision
while maintaining comparable training times to applying PEFT on a quantized
model.
- Abstract(参考訳): 学習後量子化(PTQ)と量子化対応学習(QAT)法は,大規模言語モデル(LLM)に関連する高メモリと計算コストの軽減で人気を集めている。
リソース制約のあるシナリオでは、PTQはトレーニングのオーバーヘッドを減らし、QATよりも好まれる。
一方、低ランク適応(LoRA)のようなパラメータ効率細調整(PEFT)手法を導入し、近年、量子化対応PEFT技術について検討している。
しかし、これらのアプローチは、事前量子化モデルの構成に依存するため、一般性に欠ける可能性がある。
それらの効果は非線形量子化または混合精度の重みによって損なわれ、特定の量子化パラメータの再学習は最適な性能を阻害する可能性がある。
これらの課題に対処するため,パラメータ効率を考慮した量子化学習アルゴリズムL4Qを提案する。
L4Q は LLM に対して LoRA で学習した量子化ステップサイズを活用する。
L4Qの同時量子化・微調整プロセスは高精度なモデルに適用でき、より精度のよい線形量子化重みが得られる。
命令データセットを用いてLLaMAとLLaMA2モデルファミリを用いて実験を行い、L4Qの言語理解能力と文脈内学習能力を示し、量子化モデルにPEFTを適用するための訓練時間を維持しながら、サブ4ビット精度を実現した。
関連論文リスト
- SLiM: One-shot Quantized Sparse Plus Low-rank Approximation of LLMs [2.7624021966289605]
大規模言語モデル(LLM)は、自然言語の理解と生成タスクに革命をもたらした。
LLMは、大きなパラメータサイズのため、メモリ消費が高く、推論時間が遅い。
本稿では,1ショットの量子スパースプラス低ランク近似を用いたLEMの圧縮手法であるSLiMを紹介する。
論文 参考訳(メタデータ) (2024-10-12T18:36:07Z) - QERA: an Analytical Framework for Quantization Error Reconstruction [12.110441045050223]
重みを極めて低い精度に定量化することへの関心が高まり、結果として生じる誤差を低ランクで高精度なエラー再構成項で相殺する。
量子化と低ランク近似の組み合わせは、アダプタベースのパラメータ効率の微調整法の両方で人気がある。
本稿では,QERA(Quantization Error Reconstruction Analysis)という解析フレームワークを定式化し,その問題に対するクローズドフォームのソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-08T13:37:34Z) - P4Q: Learning to Prompt for Quantization in Visual-language Models [38.87018242616165]
量子化のためのPrompt(P4Q)という,微調整と量子化のバランスをとる手法を提案する。
提案手法は,低ビット量子化による画像特徴とテキスト特徴とのギャップを効果的に低減することができる。
私たちの8ビットP4Qは理論上CLIP-ViT/B-32を4$times$で圧縮でき、Top-1の精度は66.94%である。
論文 参考訳(メタデータ) (2024-09-26T08:31:27Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Memory-Efficient Fine-Tuning of Compressed Large Language Models via
sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。
本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文 参考訳(メタデータ) (2023-05-23T15:20:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。