Fugu-MT 論文翻訳(概要): Unifying Block-wise PTQ and Distillation-based QAT for Progressive Quantization toward 2-bit Instruction-Tuned LLMs

論文の概要: Unifying Block-wise PTQ and Distillation-based QAT for Progressive Quantization toward 2-bit Instruction-Tuned LLMs

arxiv url: http://arxiv.org/abs/2506.09104v1
Date: Tue, 10 Jun 2025 16:26:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 06:35:01.735973
Title: Unifying Block-wise PTQ and Distillation-based QAT for Progressive Quantization toward 2-bit Instruction-Tuned LLMs
Title（参考訳）: ブロックワイズPTQと蒸留系QATを融合した2ビット命令制御LDMに向けた進行量子化
Authors: Jung Hyun Lee, Seungjae Shin, Vinnam Kim, Jaeseong You, An Chen,
Abstract要約: 本稿では,蒸留法に基づく量子化学習(Distill-QAT)とブロックワイズ後量子化を統合化するUPQ(Unified Progressive Quantization)を提案する。我々の知る限りでは、UPQが独自の後トレーニングデータに頼ることなく、オープンソースの命令チューニング LLM をINT2 に量子化できることを最初に示す。
参考スコア（独自算出の注目度）: 12.050611514060023
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As the rapid scaling of large language models (LLMs) poses significant challenges for deployment on resource-constrained devices, there is growing interest in extremely low-bit quantization, such as 2-bit. Although prior works have shown that 2-bit large models are pareto-optimal over their 4-bit smaller counterparts in both accuracy and latency, these advancements have been limited to pre-trained LLMs and have not yet been extended to instruction-tuned models. To bridge this gap, we propose Unified Progressive Quantization (UPQ)$-$a novel progressive quantization framework (FP16$\rightarrow$INT4$\rightarrow$INT2) that unifies block-wise post-training quantization (PTQ) with distillation-based quantization-aware training (Distill-QAT) for INT2 instruction-tuned LLM quantization. UPQ first quantizes FP16 instruction-tuned models to INT4 using block-wise PTQ to significantly reduce the quantization error introduced by subsequent INT2 quantization. Next, UPQ applies Distill-QAT to enable INT2 instruction-tuned LLMs to generate responses consistent with their original FP16 counterparts by minimizing the generalized Jensen-Shannon divergence (JSD) between the two. To the best of our knowledge, we are the first to demonstrate that UPQ can quantize open-source instruction-tuned LLMs to INT2 without relying on proprietary post-training data, while achieving state-of-the-art performances on MMLU and IFEval$-$two of the most representative benchmarks for evaluating instruction-tuned LLMs.
Abstract（参考訳）: 大きな言語モデル(LLM)の急激なスケーリングは、リソース制約のあるデバイスへのデプロイに重大な課題をもたらすため、2ビットのような非常に低ビットの量子化への関心が高まっている。以前の研究では、2ビットの大型モデルは4ビットの小型モデルに比べて精度とレイテンシの両方で最適であることが示されているが、これらの進歩は事前訓練されたLLMに限られており、命令調整されたモデルにはまだ拡張されていない。このギャップを埋めるために、我々は、INT2命令調整LDM量子化のための蒸留ベースの量子化学習(Distill-QAT)とブロックワイズ後量子化(PTQ)を統一する新しいプログレッシブ量子化フレームワーク(FP16$\rightarrow$INT4$\rightarrow$INT2)を提案する。 UPQはまず、ブロックワイズPTQを用いてFP16命令調整されたモデルをINT4に量子化し、後のINT2量子化で導入された量子化誤差を著しく低減する。次に、UPQ は Distill-QAT を適用して、INT2 命令で調整された LLM が、2 つの間の一般化された Jensen-Shannon divergence (JSD) を最小化することにより、元の FP16 と整合した応答を生成する。我々の知る限り、UPQ は MMLU と IFEval$-$2 の最先端性能を達成しつつも、独自のトレーニング後のデータに頼ることなく、オープンソースの命令チューニング LLM をINT2 に量子化できることを最初に示す。

関連論文リスト

Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
SplitQuantV2: Enhancing Low-Bit Quantization of LLMs Without GPUs [10.036727981085223]
SplitQuantV2は、大規模言語モデルの低ビット線形量子化を強化するために設計された革新的なアルゴリズムである。高度なアルゴリズムに匹敵する結果が得られる。
論文参考訳（メタデータ） (2025-03-07T14:59:07Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
The Power of Negative Zero: Datatype Customization for Quantized Large Language Models [5.503925076208333]
学習後の量子化は、大規模言語モデル(LLM)のメモリと計算要求を緩和する最もハードウェア効率の良い方法の1つである。本稿では,基本FPデータ型を拡張して冗長ゼロリマッピング(RaZeR)を行う。 RaZeRは、負のゼロFPエンコーディングを、FP量子化エンコーディングを最大限活用し、数値分布をよりよく適合させるために、予め定義された特別な値のセットに再マップする。
論文参考訳（メタデータ） (2025-01-06T22:40:40Z)
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文参考訳（メタデータ） (2024-07-10T17:53:30Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric Strategy for Diverse Generative Tasks [31.431016659268206]
本研究では,大規模言語モデル(LLM)におけるGPTQのような4ビット量子化手法について検討する。タスクスコープは、コード生成や抽象的な要約といった、より生成的なカテゴリに拡張します。最新のINT4微細粒量子化に類似したレイテンシを実現するために,FP6のための新しい4+2設計を提案する。
論文参考訳（メタデータ） (2023-12-14T01:06:37Z)
CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。 LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。 CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文参考訳（メタデータ） (2023-12-13T07:56:27Z)
Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM [6.85331857224501]
LLM(Large Language Models)は、メモリ要件と計算能力に関する重要なハードウェア上の課題を提起する。 LLMには2つの主要な量子化スキームがある: 粗粒(textite.g.$ channel-wise)量子化と細粒(textite.g.$ group-wise)量子化である。我々は、高速な推論速度を確保しつつ優れた性能を維持するLLMのための新しいA8W4量子化であるDual Grained Quantization (DGQ)を紹介する。
論文参考訳（メタデータ） (2023-10-07T14:50:28Z)
Towards Efficient Post-training Quantization of Pre-trained Language Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。 GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文参考訳（メタデータ） (2021-09-30T12:50:06Z)
BRECQ: Pushing the Limit of Post-Training Quantization by Block Reconstruction [29.040991149922615]
PTQ(Post-training Quantization)という,エンドツーエンドの再トレーニングを伴わないニューラルネットワーク量子化の課題について検討する。本稿では,PTQ のビット幅制限を INT2 に初めて押し下げる BRECQ という新しい PTQ フレームワークを提案する。初めて、ベルとホイッスルなしで、PTQはQATに匹敵する4ビットのResNetとMobileNetV2を達成でき、量子化されたモデルの240倍高速な生産を享受できることを証明した。
論文参考訳（メタデータ） (2021-02-10T13:46:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。