論文の概要: PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models
- arxiv url: http://arxiv.org/abs/2502.13179v1
- Date: Tue, 18 Feb 2025 08:04:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:01:07.328890
- Title: PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models
- Title(参考訳): PTQ1.61:大規模言語モデルのための極低ビットポストトレーニング量子化法の実極限をプッシュする
- Authors: Jiaqi Zhao, Miao Zhang, Ming Wang, Yuzhang Shang, Kaihao Zhang, Weili Guan, Yaowei Wang, Min Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
- 参考スコア(独自算出の注目度): 64.84734437930362
- License:
- Abstract: Large Language Models (LLMs) suffer severe performance degradation when facing extremely low-bit (sub 2-bit) quantization. Several existing sub 2-bit post-training quantization (PTQ) methods utilize a mix-precision scheme by leveraging an unstructured fine-grained mask to explicitly distinguish salient weights, while which introduces an extra 1-bit or more per weight. To explore the real limit of PTQ, we propose an extremely low-bit PTQ method called PTQ1.61, which enables weight quantization to 1.61-bit for the first time. Specifically, we first introduce a one-dimensional structured mask with negligibly additional 0.0002-bit per weight based on input activations from the perspective of reducing the upper bound of quantization error to allocate corresponding salient weight channels to 4-bit. For non-salient channels binarization, an efficient block-wise scaling factors optimization framework is then presented to take implicit row-wise correlations and angular biases into account. Different from prior works that concentrate on adjusting quantization methodologies, we further propose a novel paradigm called quantization preprocessing, where we argue that transforming the weight distribution of the pretrained model before quantization can alleviate the difficulty in per-channel extremely low-bit PTQ. Extensive experiments indicate our PTQ1.61 achieves state-of-the-art performance in extremely low-bit quantization. Codes are available at https://github.com/zjq0455/PTQ1.61.
- Abstract(参考訳): 大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
既存の2ビット後量子化法 (PTQ) では、未構造化のきめ細かいマスクを用いて塩分重量を明確に区別し、さらに1ビットあたりの重量を1ビット以上増やす。
PTQの限界を探索するために,PTQ1.61と呼ばれる極低ビットのPTQ法を提案する。
具体的には、まず、量子化誤差の上限の上限を4ビットに減らし、対応する正重チャネルを4ビットに割り当てるという観点から、入力アクティベーションに基づいて、1次元に0.0002ビットの重みを加えた1次元構造化マスクを導入する。
非塩分チャネルバイナライゼーションでは、効率的なブロックワイズスケーリング係数最適化フレームワークが提示され、暗黙の行ワイズ相関と角偏差を考慮に入れられる。
量子化手法の調整に集中する先行研究とは違い、量子化前処理と呼ばれる新しいパラダイムを提案し、量子化前の事前学習モデルの重み分布の変換は、チャネルあたりの極低ビットPTQの難しさを軽減することができると論じる。
我々のPTQ1.61は超低ビット量子化において最先端の性能を達成することを示す。
コードはhttps://github.com/zjq0455/PTQ1.61.comで入手できる。
関連論文リスト
- ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization [58.84018707089315]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。
3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。
ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-04T18:59:26Z) - GWQ: Gradient-Aware Weight Quantization for Large Language Models [63.89099994367657]
大規模言語モデル(LLM)は、複雑な言語タスクの解決における優れたパフォーマンスを示している。
LLMを低ビットにすることで、リソース制約のあるデバイス上で動作することが可能になり、しばしばパフォーマンスの低下につながる。
低ビット重み量子化のための最初の量子化手法である勾配対応重み量子化(GWQ)を提案する。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - OAC: Output-adaptive Calibration for Accurate Post-training Quantization [30.115888331426515]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。
ほとんどのPTQは、キャリブレーションされた層単位で$ell$損失に基づいて量子化誤差を定式化する。
キャリブレーションプロセスにモデル出力を組み込むための出力適応型(OAC)を提案する。
論文 参考訳(メタデータ) (2024-05-23T20:01:17Z) - Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - Solving Oscillation Problem in Post-Training Quantization Through a
Theoretical Perspective [74.48124653728422]
ポストトレーニング量子化(PTQ)は、事実上最も効率的な圧縮手法の1つである。
我々は、PTQ法で見過ごされた振動問題について論じる。
論文 参考訳(メタデータ) (2023-03-21T14:52:52Z) - PD-Quant: Post-Training Quantization based on Prediction Difference
Metric [43.81334288840746]
ポストトレーニング量子化(PTQ)は、ニューラルネットワーク圧縮技術で、完全精度のモデルを低精度のデータ型を使用した量子化モデルに変換する。
適切な量子化パラメータを決定する方法が、現在直面している主要な問題である。
PD-Quantは、グローバル情報を考慮してこの制限に対処する手法である。
論文 参考訳(メタデータ) (2022-12-14T05:48:58Z) - Learnable Companding Quantization for Accurate Low-bit Neural Networks [3.655021726150368]
ディープニューラルネットワークの量子化は、メモリ消費の削減と推論速度の向上に有効な方法である。
非常に低ビットモデルがフル精度モデルに匹敵する精度を達成することは、まだ困難です。
2,3,4ビットモデルのための新しい非一様量子化手法として学習可能なコンパイル量子化(LCQ)を提案する。
論文 参考訳(メタデータ) (2021-03-12T09:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。