論文の概要: PrefixQuant: Eliminating Outliers by Prefixed Tokens for Large Language Models Quantization
- arxiv url: http://arxiv.org/abs/2410.05265v2
- Date: Mon, 27 Jan 2025 13:39:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:52:31.229651
- Title: PrefixQuant: Eliminating Outliers by Prefixed Tokens for Large Language Models Quantization
- Title(参考訳): PrefixQuant: 大規模言語モデル量子化のためのプリフィックストークンによるアウトリーチの除去
- Authors: Mengzhao Chen, Yi Liu, Jiahao Wang, Yi Bin, Wenqi Shao, Ping Luo,
- Abstract要約: 様々な精度で最先端性能を実現する新しい量子化法であるPrefixQuantを提案する。
第一に、PrefixQuantはKVキャッシュにoutlierトークンをプレフィックスすることでトークン単位のoutlierを排除します。
第二に、PrefixQuantは、量子化エラーを補うためにブロックワイズトレーニングのための新しいトレーニング可能なパラメータを導入した。
- 参考スコア(独自算出の注目度): 44.547992997369875
- License:
- Abstract: Existing weight-activation quantization methods for Large Language Models (LLMs) primarily address channel-wise outliers but often neglect token-wise outliers, which limits the accuracy of quantized models. In this work, we propose PrefixQuant, a novel quantization method that achieves state-of-the-art performance across various precision levels (W4A4KV4 and W4A8KV4) and granularities (dynamic and static quantization) by effectively isolating token-wise outliers. First, PrefixQuant eliminates token-wise outliers by prefixing outlier tokens in the KV cache, a process that is training-free and highly efficient (e.g., 1 minutes for Llama-3-70B). Second, PrefixQuant introduces new trainable parameters for block-wise training to compensate for quantization error. Our experiments show that PrefixQuant significantly outperforms existing dynamic quantization methods, even under coarser static quantization settings. For instance, PrefixQuant achieves an average accuracy improvement of +3.08 and +2.85 points over SpinQuant (dynamic quantization) on five zero-shot reasoning tasks under dynamic and static quantization settings, respectively, on W4A4KV4 Llama-3-8B. Additionally, we demonstrate up to 2.74x prefilling speedup and 2.16x decoding speedup for LLMs using W4A4 PrefixQuant. Our code is available at https://github.com/ChenMnZ/PrefixQuant.
- Abstract(参考訳): 既存のLarge Language Models (LLM) のウェイトアクティベーション量子化法は、主にチャネルワイドの外れ値を扱うが、トークンワイドの外れ値は無視されることが多く、量子化モデルの精度が制限される。
本研究では,様々な精度レベル(W4A4KV4とW4A8KV4)と粒度(動的および静的量子化)にまたがる最先端性能を実現する新しい量子化手法であるPrefixQuantを提案する。
第一に、PrefixQuantはKVキャッシュにoutlierトークンをプレフィックスすることでトークン単位のoutlierを排除します。
第二に、PrefixQuantは、量子化エラーを補うためにブロックワイズトレーニングのための新しいトレーニング可能なパラメータを導入した。
実験の結果,PrefixQuantは静的量子化設定下であっても,既存の動的量子化手法よりも大幅に優れていることがわかった。
例えばPrefixQuantは、W4A4KV4 Llama-3-8Bで、動的および静的量子化設定下での5つのゼロショット推論タスクにおいて、SpinQuant(動的量子化)よりも平均精度が+3.08および+2.85ポイント向上する。
さらに、W4A4 PrefixQuantを用いて、LLMの2.74倍のプリフィルスピードアップと2.16倍のデコードスピードアップを示す。
私たちのコードはhttps://github.com/ChenMnZ/PrefixQuant.comから入手可能です。
関連論文リスト
- SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。
これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。
本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - Prefixing Attention Sinks can Mitigate Activation Outliers for Large Language Model Quantization [13.475050661770796]
我々は,問題となるトークンの発生を防止し,アクティベーション単位の量子化を容易にするための簡易かつ効果的な戦略を開発する。
トークンキャッシュを調整して、その後のトークンのアクティベーションを規則化し、より量子化しやすいものにします。
我々は,この手法を広範囲のモデルとベンチマークで徹底的に評価し,拡張子ごとのW8A8量子化の確立されたベースラインをはるかに上回っていることを確認した。
論文 参考訳(メタデータ) (2024-06-17T18:33:44Z) - Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - Post-Training Sparsity-Aware Quantization [2.2530496464901106]
量子化(quantization)は、ディープニューラルネットワーク(DNN)において、実行性能とハードウェア効率を向上させるために使用されるテクニックである。
本研究では,非構造および動的アクティベーション・スパシティを異なる表現粒度に利用したスパーシティー対応量子化(SPARQ)法を提案する。
SPARQは、小さな精度の劣化、広く使われているハードウェアアーキテクチャの2倍の高速化、実用的なハードウェア実装を実現している。
論文 参考訳(メタデータ) (2021-05-23T20:12:35Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。