論文の概要: PrefixQuant: Static Quantization Beats Dynamic through Prefixed Outliers in LLMs
- arxiv url: http://arxiv.org/abs/2410.05265v1
- Date: Mon, 7 Oct 2024 17:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 19:57:23.964398
- Title: PrefixQuant: Static Quantization Beats Dynamic through Prefixed Outliers in LLMs
- Title(参考訳): PrefixQuant: 静的量子化は、LLMのプリフィックスアウトリーチを介して動的に動く
- Authors: Mengzhao Chen, Yi Liu, Jiahao Wang, Yi Bin, Wenqi Shao, Ping Luo,
- Abstract要約: PrefixQuantを紹介します。これは、再トレーニングせずに、外れ値トークンをオフラインに分離する新しいテクニックです。
PrefixQuantは、高周波のoutlierトークンを特定し、それをKVキャッシュにプレフィックスすることで、推論中のoutlierトークンの生成を防止し、量子化を単純化する。
テンソルごとの静的量子化を伴うPrefixQuantは、7.43 WikiText2の難易度と5つの常識的推論タスクの平均精度を71.08%達成する。
- 参考スコア(独自算出の注目度): 44.547992997369875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization is essential for deploying Large Language Models (LLMs) by enhancing memory efficiency and inference speed. Existing methods for activation quantization mainly address channel-wise outliers, often neglecting token-wise outliers, leading to reliance on costly per-token dynamic quantization. To address this, we introduce PrefixQuant, a novel technique that isolates outlier tokens offline without re-training. Specifically, PrefixQuant identifies high-frequency outlier tokens and prefixes them in the KV cache, preventing the generation of outlier tokens during inference and simplifying quantization. To our knowledge, PrefixQuant is the first to enable efficient per-tensor static quantization to outperform expensive per-token dynamic quantization. For instance, in W4A4KV4 (4- bit weight, 4-bit activation, and 4-bit KV cache) Llama-3-8B, PrefixQuant with per-tensor static quantization achieves a 7.43 WikiText2 perplexity and 71.08% average accuracy on 5 common-sense reasoning tasks, outperforming previous per-token dynamic quantization methods like QuaRot with 0.98 perplexity improvement and +5.98 points accuracy. Additionally, the inference speed of W4A4 quantized models using PrefixQuant is 1.60x to 2.81x faster than FP16 models and exceeds QuaRot models by 1.2x to 1.3x. Our code is available at \url{https://github.com/ChenMnZ/PrefixQuant}.
- Abstract(参考訳): 量子化は、メモリ効率と推論速度を向上させることで、LLM(Large Language Models)の展開に不可欠である。
既存のアクティベーション量子化法は主にチャネルワイドの外れ値に対処し、トークンワイドの外れ値を無視し、コストのかかる動的量子化に依存する。
この問題に対処するために、私たちはPrefixQuantを紹介します。これは、再トレーニングせずに、オフに外れ値トークンを分離する新しいテクニックです。
具体的には、PrefixQuantは高周波のoutlierトークンを特定し、それをKVキャッシュにプレフィックスすることで、推論中のoutlierトークンの生成を防止し、量子化を単純化する。
私たちの知る限り、PrefixQuantは、テンソル毎の静的量子化を効率よく実現し、高価な動的量子化よりも優れています。
例えば、W4A4KV4 (4-bit weight, 4-bit activation, 4-bit KV cache) では、Llama-3-8B, PrefixQuant with per-tensor static Quantization は、7.43 WikiText2 perplexity と 71.08% の平均精度を5つの常識推論タスクで達成し、QuaRot のような従来の1-token の動的量子化手法よりも 0.98 perplexity の改善と +5.98 の精度で上回っている。
さらに、PrefixQuantを用いたW4A4量子化モデルの推論速度はFP16モデルよりも1.60倍から2.81倍速く、QuaRotモデルよりも1.2倍から1.3倍速い。
私たちのコードは \url{https://github.com/ChenMnZ/PrefixQuant} で利用可能です。
関連論文リスト
- SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。
これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。
本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - Prefixing Attention Sinks can Mitigate Activation Outliers for Large Language Model Quantization [13.475050661770796]
我々は,問題となるトークンの発生を防止し,アクティベーション単位の量子化を容易にするための簡易かつ効果的な戦略を開発する。
トークンキャッシュを調整して、その後のトークンのアクティベーションを規則化し、より量子化しやすいものにします。
我々は,この手法を広範囲のモデルとベンチマークで徹底的に評価し,拡張子ごとのW8A8量子化の確立されたベースラインをはるかに上回っていることを確認した。
論文 参考訳(メタデータ) (2024-06-17T18:33:44Z) - Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - Post-Training Sparsity-Aware Quantization [2.2530496464901106]
量子化(quantization)は、ディープニューラルネットワーク(DNN)において、実行性能とハードウェア効率を向上させるために使用されるテクニックである。
本研究では,非構造および動的アクティベーション・スパシティを異なる表現粒度に利用したスパーシティー対応量子化(SPARQ)法を提案する。
SPARQは、小さな精度の劣化、広く使われているハードウェアアーキテクチャの2倍の高速化、実用的なハードウェア実装を実現している。
論文 参考訳(メタデータ) (2021-05-23T20:12:35Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。