論文の概要: Unifying Block-wise PTQ and Distillation-based QAT for Progressive Quantization toward 2-bit Instruction-Tuned LLMs
- arxiv url: http://arxiv.org/abs/2506.09104v1
- Date: Tue, 10 Jun 2025 16:26:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:01.735973
- Title: Unifying Block-wise PTQ and Distillation-based QAT for Progressive Quantization toward 2-bit Instruction-Tuned LLMs
- Title(参考訳): ブロックワイズPTQと蒸留系QATを融合した2ビット命令制御LDMに向けた進行量子化
- Authors: Jung Hyun Lee, Seungjae Shin, Vinnam Kim, Jaeseong You, An Chen,
- Abstract要約: 本稿では,蒸留法に基づく量子化学習(Distill-QAT)とブロックワイズ後量子化を統合化するUPQ(Unified Progressive Quantization)を提案する。
我々の知る限りでは、UPQが独自の後トレーニングデータに頼ることなく、オープンソースの命令チューニング LLM をINT2 に量子化できることを最初に示す。
- 参考スコア(独自算出の注目度): 12.050611514060023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the rapid scaling of large language models (LLMs) poses significant challenges for deployment on resource-constrained devices, there is growing interest in extremely low-bit quantization, such as 2-bit. Although prior works have shown that 2-bit large models are pareto-optimal over their 4-bit smaller counterparts in both accuracy and latency, these advancements have been limited to pre-trained LLMs and have not yet been extended to instruction-tuned models. To bridge this gap, we propose Unified Progressive Quantization (UPQ)$-$a novel progressive quantization framework (FP16$\rightarrow$INT4$\rightarrow$INT2) that unifies block-wise post-training quantization (PTQ) with distillation-based quantization-aware training (Distill-QAT) for INT2 instruction-tuned LLM quantization. UPQ first quantizes FP16 instruction-tuned models to INT4 using block-wise PTQ to significantly reduce the quantization error introduced by subsequent INT2 quantization. Next, UPQ applies Distill-QAT to enable INT2 instruction-tuned LLMs to generate responses consistent with their original FP16 counterparts by minimizing the generalized Jensen-Shannon divergence (JSD) between the two. To the best of our knowledge, we are the first to demonstrate that UPQ can quantize open-source instruction-tuned LLMs to INT2 without relying on proprietary post-training data, while achieving state-of-the-art performances on MMLU and IFEval$-$two of the most representative benchmarks for evaluating instruction-tuned LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)の急激なスケーリングは、リソース制約のあるデバイスへのデプロイに重大な課題をもたらすため、2ビットのような非常に低ビットの量子化への関心が高まっている。
以前の研究では、2ビットの大型モデルは4ビットの小型モデルに比べて精度とレイテンシの両方で最適であることが示されているが、これらの進歩は事前訓練されたLLMに限られており、命令調整されたモデルにはまだ拡張されていない。
このギャップを埋めるために、我々は、INT2命令調整LDM量子化のための蒸留ベースの量子化学習(Distill-QAT)とブロックワイズ後量子化(PTQ)を統一する新しいプログレッシブ量子化フレームワーク(FP16$\rightarrow$INT4$\rightarrow$INT2)を提案する。
UPQはまず、ブロックワイズPTQを用いてFP16命令調整されたモデルをINT4に量子化し、後のINT2量子化で導入された量子化誤差を著しく低減する。
次に、UPQ は Distill-QAT を適用して、INT2 命令で調整された LLM が、2 つの間の一般化された Jensen-Shannon divergence (JSD) を最小化することにより、元の FP16 と整合した応答を生成する。
我々の知る限り、UPQ は MMLU と IFEval$-$2 の最先端性能を達成しつつも、独自のトレーニング後のデータに頼ることなく、オープンソースの命令チューニング LLM をINT2 に量子化できることを最初に示す。
関連論文リスト
- Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。
LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。
LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文 参考訳(メタデータ) (2025-03-10T09:26:08Z) - SplitQuantV2: Enhancing Low-Bit Quantization of LLMs Without GPUs [10.036727981085223]
SplitQuantV2は、大規模言語モデルの低ビット線形量子化を強化するために設計された革新的なアルゴリズムである。
高度なアルゴリズムに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2025-03-07T14:59:07Z) - The Power of Negative Zero: Datatype Customization for Quantized Large Language Models [5.503925076208333]
学習後の量子化は、大規模言語モデル(LLM)のメモリと計算要求を緩和する最もハードウェア効率の良い方法の1つである。
本稿では,基本FPデータ型を拡張して冗長ゼロリマッピング(RaZeR)を行う。
RaZeRは、負のゼロFPエンコーディングを、FP量子化エンコーディングを最大限活用し、数値分布をよりよく適合させるために、予め定義された特別な値のセットに再マップする。
論文 参考訳(メタデータ) (2025-01-06T22:40:40Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric
Strategy for Diverse Generative Tasks [31.431016659268206]
本研究では,大規模言語モデル(LLM)におけるGPTQのような4ビット量子化手法について検討する。
タスクスコープは、コード生成や抽象的な要約といった、より生成的なカテゴリに拡張します。
最新のINT4微細粒量子化に類似したレイテンシを実現するために,FP6のための新しい4+2設計を提案する。
論文 参考訳(メタデータ) (2023-12-14T01:06:37Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - BRECQ: Pushing the Limit of Post-Training Quantization by Block
Reconstruction [29.040991149922615]
PTQ(Post-training Quantization)という,エンドツーエンドの再トレーニングを伴わないニューラルネットワーク量子化の課題について検討する。
本稿では,PTQ のビット幅制限を INT2 に初めて押し下げる BRECQ という新しい PTQ フレームワークを提案する。
初めて、ベルとホイッスルなしで、PTQはQATに匹敵する4ビットのResNetとMobileNetV2を達成でき、量子化されたモデルの240倍高速な生産を享受できることを証明した。
論文 参考訳(メタデータ) (2021-02-10T13:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。