論文の概要: PrefixQuant: Eliminating Outliers by Prefixed Tokens for Large Language Models Quantization
- arxiv url: http://arxiv.org/abs/2410.05265v2
- Date: Mon, 27 Jan 2025 13:39:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:52:31.229651
- Title: PrefixQuant: Eliminating Outliers by Prefixed Tokens for Large Language Models Quantization
- Title(参考訳): PrefixQuant: 大規模言語モデル量子化のためのプリフィックストークンによるアウトリーチの除去
- Authors: Mengzhao Chen, Yi Liu, Jiahao Wang, Yi Bin, Wenqi Shao, Ping Luo,
- Abstract要約: 様々な精度で最先端性能を実現する新しい量子化法であるPrefixQuantを提案する。
第一に、PrefixQuantはKVキャッシュにoutlierトークンをプレフィックスすることでトークン単位のoutlierを排除します。
第二に、PrefixQuantは、量子化エラーを補うためにブロックワイズトレーニングのための新しいトレーニング可能なパラメータを導入した。
- 参考スコア(独自算出の注目度): 44.547992997369875
- License:
- Abstract: Existing weight-activation quantization methods for Large Language Models (LLMs) primarily address channel-wise outliers but often neglect token-wise outliers, which limits the accuracy of quantized models. In this work, we propose PrefixQuant, a novel quantization method that achieves state-of-the-art performance across various precision levels (W4A4KV4 and W4A8KV4) and granularities (dynamic and static quantization) by effectively isolating token-wise outliers. First, PrefixQuant eliminates token-wise outliers by prefixing outlier tokens in the KV cache, a process that is training-free and highly efficient (e.g., 1 minutes for Llama-3-70B). Second, PrefixQuant introduces new trainable parameters for block-wise training to compensate for quantization error. Our experiments show that PrefixQuant significantly outperforms existing dynamic quantization methods, even under coarser static quantization settings. For instance, PrefixQuant achieves an average accuracy improvement of +3.08 and +2.85 points over SpinQuant (dynamic quantization) on five zero-shot reasoning tasks under dynamic and static quantization settings, respectively, on W4A4KV4 Llama-3-8B. Additionally, we demonstrate up to 2.74x prefilling speedup and 2.16x decoding speedup for LLMs using W4A4 PrefixQuant. Our code is available at https://github.com/ChenMnZ/PrefixQuant.
- Abstract(参考訳): 既存のLarge Language Models (LLM) のウェイトアクティベーション量子化法は、主にチャネルワイドの外れ値を扱うが、トークンワイドの外れ値は無視されることが多く、量子化モデルの精度が制限される。
本研究では,様々な精度レベル(W4A4KV4とW4A8KV4)と粒度(動的および静的量子化)にまたがる最先端性能を実現する新しい量子化手法であるPrefixQuantを提案する。
第一に、PrefixQuantはKVキャッシュにoutlierトークンをプレフィックスすることでトークン単位のoutlierを排除します。
第二に、PrefixQuantは、量子化エラーを補うためにブロックワイズトレーニングのための新しいトレーニング可能なパラメータを導入した。
実験の結果,PrefixQuantは静的量子化設定下であっても,既存の動的量子化手法よりも大幅に優れていることがわかった。
例えばPrefixQuantは、W4A4KV4 Llama-3-8Bで、動的および静的量子化設定下での5つのゼロショット推論タスクにおいて、SpinQuant(動的量子化)よりも平均精度が+3.08および+2.85ポイント向上する。
さらに、W4A4 PrefixQuantを用いて、LLMの2.74倍のプリフィルスピードアップと2.16倍のデコードスピードアップを示す。
私たちのコードはhttps://github.com/ChenMnZ/PrefixQuant.comから入手可能です。
関連論文リスト
- ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization [58.84018707089315]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。
3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。
ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-04T18:59:26Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高めるための新しいポストトレーニング量子化手法であるFlatQuantを提案する。
提案手法では,各線形層に配向した最適アフィン変換を,軽量な対象ランタイムを介して数時間で校正する。
推論レイテンシーのために、FlatQuantは、プリ量子化変換によって引き起こされる遅延を、QuatRotの0.26xから単に$textbf0.07x$に減らし、プリフィルの$textbf2.3x$とデコードのための$textbf1.7x$のスピードアップをもたらす。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。
整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。
LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文 参考訳(メタデータ) (2023-10-25T17:59:32Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - LLM-QAT: Data-Free Quantization Aware Training for Large Language Models [38.76165207636793]
本研究では,事前学習モデルにより生成した世代を利用したデータフリー蒸留法を提案する。
重みとアクティベーションの定量化に加えて、スループット向上に重要なKVキャッシュの定量化も行います。
我々は7B,13B,30BのLLaMAモデルを4ビット以下の量子化レベルで実験した。
論文 参考訳(メタデータ) (2023-05-29T05:22:11Z) - One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2021-05-04T08:10:50Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。