論文の概要: L4Q: Parameter Efficient Quantization-Aware Training on Large Language
Models via LoRA-wise LSQ
- arxiv url: http://arxiv.org/abs/2402.04902v2
- Date: Thu, 15 Feb 2024 11:30:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 18:41:54.613382
- Title: L4Q: Parameter Efficient Quantization-Aware Training on Large Language
Models via LoRA-wise LSQ
- Title(参考訳): L4Q: LoRA-wise LSQを用いた大規模言語モデルのパラメータ効率的な量子化学習
- Authors: Hyesung Jeon, Yulhwa Kim, Jae-joon Kim
- Abstract要約: 学習後量子化(PTQ)と量子化対応学習(QAT)の手法は,資源制約のあるシナリオで人気を集めている。
パラメータ効率を考慮した量子化学習アルゴリズムL4Qを提案する。
- 参考スコア(独自算出の注目度): 5.962184741057505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization (PTQ) and quantization-aware training (QAT)
methods are gaining popularity in mitigating the high memory and computational
costs associated with Large Language Models (LLMs). In resource-constrained
scenarios, PTQ, with its reduced training overhead, is often preferred over
QAT, despite the latter's potential for higher accuracy. Meanwhile,
parameter-efficient fine-tuning (PEFT) methods like low-rank adaptation (LoRA)
have been introduced, and recent efforts have explored quantization-aware PEFT
techniques. However, these approaches may lack generality due to their reliance
on the pre-quantized model's configuration. Their effectiveness may be
compromised by non-linearly quantized or mixed-precision weights, and the
retraining of specific quantization parameters might impede optimal
performance. To address these challenges, we propose L4Q, an algorithm for
parameter-efficient quantization-aware training. L4Q leverages LoRA-wise
learned quantization step size for LLMs, aiming to enhance generality. The
simultaneous quantization-and-fine-tuning process of L4Q is applicable to
high-precision models, yielding linearly quantized weights with superior
accuracy. Our experiments, conducted on the LLaMA and LLaMA2 model families
using an instructional dataset, showcase L4Q's capabilities in language
comprehension and few-shot in-context learning, achieving sub-4-bit precision
while maintaining comparable training times to applying PEFT on a quantized
model.
- Abstract(参考訳): 学習後量子化(PTQ)と量子化対応学習(QAT)法は,大規模言語モデル(LLM)に関連する高メモリと計算コストの軽減で人気を集めている。
リソース制約のあるシナリオでは、PTQはトレーニングのオーバーヘッドを減らし、QATよりも好まれる。
一方、低ランク適応(LoRA)のようなパラメータ効率細調整(PEFT)手法を導入し、近年、量子化対応PEFT技術について検討している。
しかし、これらのアプローチは、事前量子化モデルの構成に依存するため、一般性に欠ける可能性がある。
それらの効果は非線形量子化または混合精度の重みによって損なわれ、特定の量子化パラメータの再学習は最適な性能を阻害する可能性がある。
これらの課題に対処するため,パラメータ効率を考慮した量子化学習アルゴリズムL4Qを提案する。
L4Q は LLM に対して LoRA で学習した量子化ステップサイズを活用する。
L4Qの同時量子化・微調整プロセスは高精度なモデルに適用でき、より精度のよい線形量子化重みが得られる。
命令データセットを用いてLLaMAとLLaMA2モデルファミリを用いて実験を行い、L4Qの言語理解能力と文脈内学習能力を示し、量子化モデルにPEFTを適用するための訓練時間を維持しながら、サブ4ビット精度を実現した。
関連論文リスト
- Towards Efficient Pre-training: Exploring FP4 Precision in Large Language Models [25.700481606604647]
実験により,我々のFP4トレーニング手法は,理論計算コストを小さくして,BF16とFP8に匹敵する精度を達成できた。
FP4をサポートする次世代ハードウェアの登場に伴い,本手法は効率的な超低精度トレーニングの基礎となる。
論文 参考訳(メタデータ) (2025-02-17T05:33:11Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [95.32315448601241]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - Low-Rank Quantization-Aware Training for LLMs [8.535254310145005]
大規模言語モデル(LLM)は、一様だが、計算とメモリの需要がますます増大しているため、その実践的な展開は困難である。
LLMのための軽量かつメモリ効率のQATアルゴリズムであるLR-QATを提案する。
提案手法は、PTQ(Common-training Quantization)アプローチよりも優れ、メモリ使用率のごく一部でフルモデルQATと同じモデル性能に達する。
論文 参考訳(メタデータ) (2024-06-10T15:44:22Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - Oh! We Freeze: Improving Quantized Knowledge Distillation via Signal Propagation Analysis for Large Language Models [5.69541128149828]
大規模言語モデル(LLM)や拡散モデルといった大規模な生成モデルは、それぞれNLPとコンピュータビジョンの分野に革命をもたらした。
本研究では, 知識蒸留(KD-QAT)を用いた軽量量子化対応微調整技術を提案し, 4ビット量化LDMの性能向上を図る。
我々は, ovフリーズがほぼ浮動小数点精度, すなわちCommonsense Reasoningベンチマークにおいて0.7%未満の精度で精度を低下させることを示す。
論文 参考訳(メタデータ) (2024-03-26T23:51:44Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Memory-Efficient Fine-Tuning of Compressed Large Language Models via
sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。
本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文 参考訳(メタデータ) (2023-05-23T15:20:01Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。