論文の概要: PrefixQuant: Static Quantization Beats Dynamic through Prefixed Outliers in LLMs
- arxiv url: http://arxiv.org/abs/2410.05265v1
- Date: Mon, 7 Oct 2024 17:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 19:57:23.964398
- Title: PrefixQuant: Static Quantization Beats Dynamic through Prefixed Outliers in LLMs
- Title(参考訳): PrefixQuant: 静的量子化は、LLMのプリフィックスアウトリーチを介して動的に動く
- Authors: Mengzhao Chen, Yi Liu, Jiahao Wang, Yi Bin, Wenqi Shao, Ping Luo,
- Abstract要約: PrefixQuantを紹介します。これは、再トレーニングせずに、外れ値トークンをオフラインに分離する新しいテクニックです。
PrefixQuantは、高周波のoutlierトークンを特定し、それをKVキャッシュにプレフィックスすることで、推論中のoutlierトークンの生成を防止し、量子化を単純化する。
テンソルごとの静的量子化を伴うPrefixQuantは、7.43 WikiText2の難易度と5つの常識的推論タスクの平均精度を71.08%達成する。
- 参考スコア(独自算出の注目度): 44.547992997369875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization is essential for deploying Large Language Models (LLMs) by enhancing memory efficiency and inference speed. Existing methods for activation quantization mainly address channel-wise outliers, often neglecting token-wise outliers, leading to reliance on costly per-token dynamic quantization. To address this, we introduce PrefixQuant, a novel technique that isolates outlier tokens offline without re-training. Specifically, PrefixQuant identifies high-frequency outlier tokens and prefixes them in the KV cache, preventing the generation of outlier tokens during inference and simplifying quantization. To our knowledge, PrefixQuant is the first to enable efficient per-tensor static quantization to outperform expensive per-token dynamic quantization. For instance, in W4A4KV4 (4- bit weight, 4-bit activation, and 4-bit KV cache) Llama-3-8B, PrefixQuant with per-tensor static quantization achieves a 7.43 WikiText2 perplexity and 71.08% average accuracy on 5 common-sense reasoning tasks, outperforming previous per-token dynamic quantization methods like QuaRot with 0.98 perplexity improvement and +5.98 points accuracy. Additionally, the inference speed of W4A4 quantized models using PrefixQuant is 1.60x to 2.81x faster than FP16 models and exceeds QuaRot models by 1.2x to 1.3x. Our code is available at \url{https://github.com/ChenMnZ/PrefixQuant}.
- Abstract(参考訳): 量子化は、メモリ効率と推論速度を向上させることで、LLM(Large Language Models)の展開に不可欠である。
既存のアクティベーション量子化法は主にチャネルワイドの外れ値に対処し、トークンワイドの外れ値を無視し、コストのかかる動的量子化に依存する。
この問題に対処するために、私たちはPrefixQuantを紹介します。これは、再トレーニングせずに、オフに外れ値トークンを分離する新しいテクニックです。
具体的には、PrefixQuantは高周波のoutlierトークンを特定し、それをKVキャッシュにプレフィックスすることで、推論中のoutlierトークンの生成を防止し、量子化を単純化する。
私たちの知る限り、PrefixQuantは、テンソル毎の静的量子化を効率よく実現し、高価な動的量子化よりも優れています。
例えば、W4A4KV4 (4-bit weight, 4-bit activation, 4-bit KV cache) では、Llama-3-8B, PrefixQuant with per-tensor static Quantization は、7.43 WikiText2 perplexity と 71.08% の平均精度を5つの常識推論タスクで達成し、QuaRot のような従来の1-token の動的量子化手法よりも 0.98 perplexity の改善と +5.98 の精度で上回っている。
さらに、PrefixQuantを用いたW4A4量子化モデルの推論速度はFP16モデルよりも1.60倍から2.81倍速く、QuaRotモデルよりも1.2倍から1.3倍速い。
私たちのコードは \url{https://github.com/ChenMnZ/PrefixQuant} で利用可能です。
関連論文リスト
- ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization [58.84018707089315]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。
3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。
ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-04T18:59:26Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高めるための新しいポストトレーニング量子化手法であるFlatQuantを提案する。
提案手法では,各線形層に配向した最適アフィン変換を,軽量な対象ランタイムを介して数時間で校正する。
推論レイテンシーのために、FlatQuantは、プリ量子化変換によって引き起こされる遅延を、QuatRotの0.26xから単に$textbf0.07x$に減らし、プリフィルの$textbf2.3x$とデコードのための$textbf1.7x$のスピードアップをもたらす。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。
整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。
LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文 参考訳(メタデータ) (2023-10-25T17:59:32Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - LLM-QAT: Data-Free Quantization Aware Training for Large Language Models [38.76165207636793]
本研究では,事前学習モデルにより生成した世代を利用したデータフリー蒸留法を提案する。
重みとアクティベーションの定量化に加えて、スループット向上に重要なKVキャッシュの定量化も行います。
我々は7B,13B,30BのLLaMAモデルを4ビット以下の量子化レベルで実験した。
論文 参考訳(メタデータ) (2023-05-29T05:22:11Z) - One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2021-05-04T08:10:50Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。