論文の概要: Prefixing Attention Sinks can Mitigate Activation Outliers for Large Language Model Quantization
- arxiv url: http://arxiv.org/abs/2406.12016v2
- Date: Fri, 04 Oct 2024 06:26:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:07:54.333292
- Title: Prefixing Attention Sinks can Mitigate Activation Outliers for Large Language Model Quantization
- Title(参考訳): 注意シンクによる大規模言語モデル量子化のためのアクティベーションアウトレイラの緩和
- Authors: Seungwoo Son, Wonpyo Park, Woohyun Han, Kyuyeun Kim, Jaeho Lee,
- Abstract要約: 我々は,問題となるトークンの発生を防止し,アクティベーション単位の量子化を容易にするための簡易かつ効果的な戦略を開発する。
トークンキャッシュを調整して、その後のトークンのアクティベーションを規則化し、より量子化しやすいものにします。
我々は,この手法を広範囲のモデルとベンチマークで徹底的に評価し,拡張子ごとのW8A8量子化の確立されたベースラインをはるかに上回っていることを確認した。
- 参考スコア(独自算出の注目度): 13.475050661770796
- License:
- Abstract: Despite recent advances in LLM quantization, activation quantization remains to be challenging due to the activation outliers. Conventional remedies, e.g., mixing precisions for different channels, introduce extra overhead and reduce the speedup. In this work, we develop a simple yet effective strategy to facilitate per-tensor activation quantization by preventing the generation of problematic tokens. Precisely, we propose a method to find a set of key-value cache, coined CushionCache, which mitigates outliers in subsequent tokens when inserted as a prefix. CushionCache works in two steps: First, we greedily search for a prompt token sequence that minimizes the maximum activation values in subsequent tokens. Then, we further tune the token cache to regularize the activations of subsequent tokens to be more quantization-friendly. The proposed method successfully addresses activation outliers of LLMs, providing a substantial performance boost for per-tensor activation quantization methods. We thoroughly evaluate our method over a wide range of models and benchmarks and find that it significantly surpasses the established baseline of per-tensor W8A8 quantization and can be seamlessly integrated with the recent activation quantization method.
- Abstract(参考訳): LLM量子化の最近の進歩にもかかわらず、アクティベーション量子化は、アクティベーションアウトレーヤのために困難である。
従来の改善、例えば、異なるチャネルの精度の混合、追加のオーバーヘッドの導入、スピードアップの削減。
本研究では,問題トークンの発生を防止し,アクティベーション単位の量子化を促進するための簡易かつ効果的な戦略を開発する。
正確には、プレフィックスとして挿入された後続のトークンの外部化を緩和するCushionCacheという、キー値キャッシュのセットを見つける方法を提案する。
CushionCacheは2つのステップで動作します。 まず最初に、後続のトークンにおける最大アクティベーション値を最小限に抑えるプロンプトトークンシーケンスを探します。
次に、トークンキャッシュを調整して、その後のトークンのアクティベーションを、より量子化しやすいように調整する。
提案手法は, LLMのアクティベーション・アウトレイラに対処し, アクティベーション・量子化法の性能向上に寄与する。
我々は,この手法を広範囲のモデルとベンチマークで徹底的に評価し,拡張子ごとのW8A8量子化の確立されたベースラインをはるかに上回り,最近のアクティベーション量子化法とシームレスに統合できることを見出した。
関連論文リスト
- QSpec: Speculative Decoding with Complementary Quantization Schemes [37.007621357142725]
量子化は、推論を加速し、大きな言語モデルのメモリ消費を減らすために、実質的に採用されている。
本稿では、投機的復号化のための2つの相補的量子化スキームをシームレスに統合するQSPECと呼ばれる新しい量子化パラダイムを提案する。
QSPECは、品質上の妥協なしにトークン生成スループットを最大1.80倍向上させる。
論文 参考訳(メタデータ) (2024-10-15T05:57:51Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - Mitigating Quantization Errors Due to Activation Spikes in GLU-Based LLMs [5.408684636210501]
ポストトレーニング量子化(PTQ)は、ウェイトとアクティベーションを定量化し、精度を下げる一般的なアプローチとなっている。
本稿では,現代の大規模言語モデルのフィードフォワードネットワーク(FFN)において広く利用されているGLU変種におけるアクティベーション量子化の課題について述べる。
本稿では,量子化時のアクティベーションスパイクを分離するために,量子化フリーモジュール(QFeM)と量子化フリープリフィックス(QFeP)の2つの経験的手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T10:54:14Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,現行手法の有効性を損なう量子拡散モデルの3つの特性を実証的に明らかにする。
重要な時間的情報を保持する層と、ビット幅の低減に敏感な層という、2つの重要なタイプの量子化層を同定する。
提案手法は,3つの高分解能画像生成タスクに対して評価し,様々なビット幅設定で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-02-06T03:39:44Z) - Agile-Quant: Activation-Guided Quantization for Faster Inference of LLMs
on the Edge [45.690907522226794]
大きな言語モデル(LLM)は、複雑な言語モデリングタスクにおける印象的なパフォーマンスで際立っている。
近年の研究では、エンド・ツー・エンドのタスク性能に最小限の影響を伴って、8ビット以下のウェイト量子化が可能であることが示されている。
我々は、人気のある大規模言語モデルのためのアクティベーション誘導量子化フレームワークであるAgile-Quantを提案する。
論文 参考訳(メタデータ) (2023-12-09T22:12:52Z) - QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。
当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。
我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文 参考訳(メタデータ) (2023-09-05T01:39:09Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Accelerating BERT Inference for Sequence Labeling via Early-Exit [65.7292767360083]
我々は最近成功した早期退避機構を拡張し、シークエンスラベリングタスクに対するPTMの推論を高速化する。
また、異なる層で部分トークンを早期に退避させるトークンレベルの早期退避機構も提案する。
当社のアプローチでは,パフォーマンスの低下を最小限に抑えながら,最大66%~75%の推論コストを削減できる。
論文 参考訳(メタデータ) (2021-05-28T14:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。