論文の概要: PoTPTQ: A Two-step Power-of-Two Post-training for LLMs
- arxiv url: http://arxiv.org/abs/2507.11959v1
- Date: Wed, 16 Jul 2025 06:44:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.261356
- Title: PoTPTQ: A Two-step Power-of-Two Post-training for LLMs
- Title(参考訳): PoTPTQ: LLMの2段階後処理
- Authors: Xinyu Wang, Vahid Partovi Nia, Peng Lu, Jerry Huang, Xiao-Wen Chang, Boxing Chen, Yufei Cui,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示している。
パワーオブツー(PoT)量子化は、この困難に対処するための一般的なツールである。
本稿では,LLM重み付けのための新しいPOT量子化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 27.141872509108122
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable performance across various natural language processing (NLP) tasks. However, their deployment is challenging due to the substantial computational resources required. Power-of-two (PoT) quantization is a general tool to counteract this difficulty. Albeit previous works on PoT quantization can be efficiently dequantized on CPUs using fixed-point addition, it showed less effectiveness on GPUs. The reason is entanglement of the sign bit and sequential bit manipulations needed for dequantization. We propose a novel POT quantization framework for LLM weights that (i) outperforms state-of-the-art accuracy in extremely low-precision number formats, and (ii) enables faster inference through more efficient dequantization. To maintain the accuracy of the quantized model, we introduce a two-step post-training algorithm: (i) initialize the quantization scales with a robust starting point, and (ii) refine these scales using a minimal calibration set. The performance of our PoT post-training algorithm surpasses the current state-of-the-art in integer quantization, particularly at low precisions such as 2- and 3-bit formats. Our PoT quantization accelerates the dequantization step required for the floating point inference and leads to $3.67\times$ speed up on a NVIDIA V100, and $1.63\times$ on a NVIDIA RTX 4090, compared to uniform integer dequantization.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示している。
しかし、その配置は相当な計算資源を必要とするため困難である。
パワーオブツー(PoT)量子化は、この困難に対処するための一般的なツールである。
PoT量子化に関するこれまでの研究は、固定点加算によりCPU上で効率よく復号化できるが、GPUでは効果が低かった。
理由は、符号ビットと復号化に必要なシーケンシャルビット操作の絡み合いである。
LLM重みのための新しいPOT量子化フレームワークを提案する。
(i)超低精度数形式における最先端の精度を上回り、
(ii)より効率的なdequantizationにより高速な推論を可能にする。
量子化モデルの精度を維持するために,2段階のポストトレーニングアルゴリズムを導入する。
i) 量子化スケールを頑健な出発点で初期化し、
(二)最小限の校正セットを用いてこれらの尺度を洗練させる。
PoTポストトレーニングアルゴリズムの性能は、特に2ビットや3ビットのフォーマットのような低精度で、整数量子化の最先端を超越している。
我々のPoT量子化は浮動小数点推定に必要な量子化ステップを加速し、NVIDIA V100で3.67\times$、NVIDIA RTX 4090で1.63\times$となる。
関連論文リスト
- ICQuant: Index Coding enables Low-bit LLM Quantization [11.57957118744944]
重み量子化の鍵となる課題は、量子化範囲を拡大し、大きなエラーを引き起こす外れ値の存在である。
ICQuantは、外れ値統計を利用して、外れ値認識量子化のための効率的なインデックス符号化方式を設計する新しいフレームワークである。
ICQuantは重量当たり2.3ビットと単純なスカラー量子化器を使用して、2ビットのLlama3-70Bモデルのゼロショット精度をQTIPとQuIP#と比較して最大130%改善する。
論文 参考訳(メタデータ) (2025-05-01T20:23:29Z) - PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - PrefixQuant: Eliminating Outliers by Prefixed Tokens for Large Language Models Quantization [44.547992997369875]
様々な精度で最先端性能を実現する新しい量子化法であるPrefixQuantを提案する。
第一に、PrefixQuantはKVキャッシュにoutlierトークンをプレフィックスすることでトークン単位のoutlierを排除します。
第二に、PrefixQuantは、量子化エラーを補うためにブロックワイズトレーニングのための新しいトレーニング可能なパラメータを導入した。
論文 参考訳(メタデータ) (2024-10-07T17:59:35Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - GPTQT: Quantize Large Language Models Twice to Push the Efficiency [1.3149617027696827]
本稿では,学習後量子化手法であるGPTQTを導入し,メモリ使用量の削減と処理速度の向上を図る。
重みの量子化誤差の最小化は非効率であり、過度に適合することを示した。
GPTQTは、最初は線形量子化を用いて重みを相対的に高いビットに量子化し、続いて得られた重みを低ビットバイナリ符号化に変換する。
論文 参考訳(メタデータ) (2024-07-03T08:08:01Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Power-of-Two Quantization for Low Bitwidth and Hardware Compliant Neural
Networks [1.398698203665363]
本稿では,低ビット精度を利用する非線形量子化手法について検討する。
我々は,低ビット幅のPower-of-Two(PoT)ネットワークのトレーニングを可能にするQATアルゴリズムを開発した。
同時に、PoT量子化はニューラルネットワークの計算複雑性を大幅に減らす。
論文 参考訳(メタデータ) (2022-03-09T19:57:14Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - n-hot: Efficient bit-level sparsity for powers-of-two neural network
quantization [0.0]
パワーオブツー(PoT)量子化は、リソース制約ハードウェア上でのディープニューラルネットワークのビット演算数を減少させる。
PoT量子化は、表現能力が限られているため、深刻な精度低下を引き起こす。
メモリ効率の高い方法で精度とコストを両立した効率的なPoT量子化方式を提案する。
論文 参考訳(メタデータ) (2021-03-22T10:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。