論文の概要: MergeQuant: Accurate 4-bit Static Quantization of Large Language Models by Channel-wise Calibration
- arxiv url: http://arxiv.org/abs/2503.07654v1
- Date: Fri, 07 Mar 2025 04:52:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:42:07.278598
- Title: MergeQuant: Accurate 4-bit Static Quantization of Large Language Models by Channel-wise Calibration
- Title(参考訳): MergeQuant: チャネルワイド校正による大規模言語モデルの高精度4ビット静的量子化
- Authors: Jinguang Wang, Jingyu Wang, Haifeng Sun, Tingting Yang, Zirui Zhuang, Wanyi Ning, Yuexi Yin, Qi Qi, Jianxin Liao,
- Abstract要約: 本稿では,チャネルごとの静的量子化フレームワークであるMergeQuantを提案する。
MergeQuantは、量子化ステップマイグレーション(QSM)メソッドを通じて、チャネルごとの量子化ステップと対応するスケーリングと線形マッピングを統合する。
Llama-2-7Bモデルでは、MergeQuantはFP16ベースラインと比較してデコードで最大1.77倍、エンドツーエンドで最大2.06倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 23.752021919501207
- License:
- Abstract: Quantization has been widely used to compress and accelerate inference of large language models (LLMs). Existing methods focus on exploring the per-token dynamic calibration to ensure both inference acceleration and model accuracy under 4-bit quantization. However, in autoregressive generation inference of long sequences, the overhead of repeated dynamic quantization and dequantization steps becomes considerably expensive. In this work, we propose MergeQuant, an accurate and efficient per-channel static quantization framework. MergeQuant integrates the per-channel quantization steps with the corresponding scalings and linear mappings through a Quantization Step Migration (QSM) method, thereby eliminating the quantization overheads before and after matrix multiplication. Furthermore, in view of the significant differences between the different channel ranges, we propose dimensional reconstruction and adaptive clipping to address the non-uniformity of quantization scale factors and redistribute the channel variations to the subsequent modules to balance the parameter distribution under QSM. Within the static quantization setting of W4A4, MergeQuant reduces the accuracy gap on zero-shot tasks compared to FP16 baseline to 1.3 points on Llama-2-70B model. On Llama-2-7B model, MergeQuant achieves up to 1.77x speedup in decoding, and up to 2.06x speedup in end-to-end compared to FP16 baseline.
- Abstract(参考訳): 量子化は大規模言語モデル(LLM)の推論の圧縮と高速化に広く用いられている。
既存の手法では、4ビット量子化の下での推論加速度とモデル精度の両方を保証するために、トーケン単位の動的キャリブレーションの探索に重点を置いている。
しかし、長周期の自己回帰生成推定では、繰り返しの動的量子化と復号化のオーバーヘッドはかなり高くつく。
本稿では,MergeQuantを提案する。
MergeQuantは、量子化ステップマイグレーション(QSM)法により、チャネルごとの量子化ステップと対応するスケーリングと線形マッピングを統合し、行列乗算前後の量子化オーバーヘッドを解消する。
さらに,異なるチャネル範囲間の有意な差異を考慮し,量子化スケール因子の不均一性に対処する次元再構成と適応的クリッピングを提案し,QSM下でのパラメータ分布のバランスをとるために,チャネルの変動をその後のモジュールに再分割する。
W4A4の静的量子化設定では、MergeQuantはFP16ベースラインと比較してゼロショットタスクの精度ギャップをLlama-2-70Bモデルで1.3ポイントに削減する。
Llama-2-7Bモデルでは、MergeQuantはFP16ベースラインと比較してデコードで最大1.77倍、エンドツーエンドで最大2.06倍のスピードアップを達成する。
関連論文リスト
- PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - TCAQ-DM: Timestep-Channel Adaptive Quantization for Diffusion Models [49.65286242048452]
拡散モデル(TCAQ-DM)のためのタイムステップ・チャネル適応量子化法を提案する。
提案手法は,ほとんどの場合,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-21T16:57:54Z) - MPQ-DM: Mixed Precision Quantization for Extremely Low Bit Diffusion Models [37.061975191553]
本稿では,拡散モデルのための混合精度量子化法MPQ-DMを提案する。
重み付き外周波による量子化誤差を軽減するために,外周波混合量子化手法を提案する。
時間ステップを横断する表現を頑健に学習するために,時間-平滑な関係蒸留方式を構築した。
論文 参考訳(メタデータ) (2024-12-16T08:31:55Z) - PrefixQuant: Eliminating Outliers by Prefixed Tokens for Large Language Models Quantization [44.547992997369875]
様々な精度で最先端性能を実現する新しい量子化法であるPrefixQuantを提案する。
第一に、PrefixQuantはKVキャッシュにoutlierトークンをプレフィックスすることでトークン単位のoutlierを排除します。
第二に、PrefixQuantは、量子化エラーを補うためにブロックワイズトレーニングのための新しいトレーニング可能なパラメータを導入した。
論文 参考訳(メタデータ) (2024-10-07T17:59:35Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。
整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。
LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文 参考訳(メタデータ) (2023-10-25T17:59:32Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - Distribution-Flexible Subset Quantization for Post-Quantizing
Super-Resolution Networks [68.83451203841624]
本稿では,超高分解能ネットワークのためのポストトレーニング量子化手法であるDFSQを提案する。
DFSQは活性化のチャネルワイド正規化を行い、分布フレキシブルなサブセット量子化(SQ)を適用する
6ビットの量子化と8ビットの量子化では完全精度に匹敵する性能を達成し、4ビットの量子化では0.1dBのPSNR低下しか生じない。
論文 参考訳(メタデータ) (2023-05-10T04:19:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。