Fugu-MT 論文翻訳(概要): Prefixing Attention Sinks can Mitigate Activation Outliers for Large Language Model Quantization

論文の概要: Prefixing Attention Sinks can Mitigate Activation Outliers for Large Language Model Quantization

arxiv url: http://arxiv.org/abs/2406.12016v2
Date: Fri, 04 Oct 2024 06:26:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 12:18:03.28022
Title: Prefixing Attention Sinks can Mitigate Activation Outliers for Large Language Model Quantization
Title（参考訳）: 注意シンクによる大規模言語モデル量子化のためのアクティベーションアウトレイラの緩和
Authors: Seungwoo Son, Wonpyo Park, Woohyun Han, Kyuyeun Kim, Jaeho Lee,
Abstract要約: 我々は,問題となるトークンの発生を防止し,アクティベーション単位の量子化を容易にするための簡易かつ効果的な戦略を開発する。トークンキャッシュを調整して、その後のトークンのアクティベーションを規則化し、より量子化しやすいものにします。我々は,この手法を広範囲のモデルとベンチマークで徹底的に評価し,拡張子ごとのW8A8量子化の確立されたベースラインをはるかに上回っていることを確認した。
参考スコア（独自算出の注目度）: 13.475050661770796
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite recent advances in LLM quantization, activation quantization remains to be challenging due to the activation outliers. Conventional remedies, e.g., mixing precisions for different channels, introduce extra overhead and reduce the speedup. In this work, we develop a simple yet effective strategy to facilitate per-tensor activation quantization by preventing the generation of problematic tokens. Precisely, we propose a method to find a set of key-value cache, coined CushionCache, which mitigates outliers in subsequent tokens when inserted as a prefix. CushionCache works in two steps: First, we greedily search for a prompt token sequence that minimizes the maximum activation values in subsequent tokens. Then, we further tune the token cache to regularize the activations of subsequent tokens to be more quantization-friendly. The proposed method successfully addresses activation outliers of LLMs, providing a substantial performance boost for per-tensor activation quantization methods. We thoroughly evaluate our method over a wide range of models and benchmarks and find that it significantly surpasses the established baseline of per-tensor W8A8 quantization and can be seamlessly integrated with the recent activation quantization method.
Abstract（参考訳）: LLM量子化の最近の進歩にもかかわらず、アクティベーション量子化は、アクティベーションアウトレーヤのために困難である。従来の改善、例えば、異なるチャネルの精度の混合、追加のオーバーヘッドの導入、スピードアップの削減。本研究では,問題トークンの発生を防止し,アクティベーション単位の量子化を促進するための簡易かつ効果的な戦略を開発する。正確には、プレフィックスとして挿入された後続のトークンの外部化を緩和するCushionCacheという、キー値キャッシュのセットを見つける方法を提案する。 CushionCacheは2つのステップで動作します。まず最初に、後続のトークンにおける最大アクティベーション値を最小限に抑えるプロンプトトークンシーケンスを探します。次に、トークンキャッシュを調整して、その後のトークンのアクティベーションを、より量子化しやすいように調整する。提案手法は, LLMのアクティベーション・アウトレイラに対処し, アクティベーション・量子化法の性能向上に寄与する。我々は,この手法を広範囲のモデルとベンチマークで徹底的に評価し,拡張子ごとのW8A8量子化の確立されたベースラインをはるかに上回り,最近のアクティベーション量子化法とシームレスに統合できることを見出した。

関連論文リスト

Enhancing Post-Training Quantization via Future Activation Awareness [84.76726857601753]
ポストトレーニング量子化(PTQ)は、大規模言語モデル(LLM)を微調整なしで圧縮する方法として広く用いられている。本稿では、将来の層活性化を利用して量子化を導出するFuture-Aware Quantization (FAQ)を提案する。 FAQは、後方パス、データ再構成、チューニングを必要とせず、無視できる余分なコストで、従来手法よりも一貫してパフォーマンスを向上する。
論文参考訳（メタデータ） (2026-01-28T12:03:30Z)
STaMP: Sequence Transformation and Mixed Precision for Low-Precision Activation Quantization [21.93314755695813]
量子化は、生成AIモデルの推論レイテンシ、電力、メモリフットプリントを低減するための重要な方法である。テキストシーケンス変換と混合精度(STaMP)量子化を提案する。
論文参考訳（メタデータ） (2025-10-30T17:53:42Z)
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文参考訳（メタデータ） (2025-08-20T17:59:51Z)
Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。 LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文参考訳（メタデータ） (2025-06-16T03:00:40Z)
Accurate KV Cache Quantization with Outlier Tokens Tracing [44.722738059962296]
KVキャッシュの量子化は有望なソリューションであり、メモリ使用量と精度のバランスが良い。これまでの研究によると、キーはチャネルで分散され、バリューはトークンで分散されている。提案手法は,2ビット量子化による大幅な精度向上を実現し,メモリ使用率を6.4倍,スループットを2.3倍に向上させることができる。
論文参考訳（メタデータ） (2025-05-16T07:23:12Z)
GuidedQuant: Large Language Model Quantization via Exploiting End Loss Guidance [21.134233954419148]
トレーニング後の量子化は、大規模言語モデルのメモリと推論遅延を低減するための重要なテクニックである。本稿では,エンドロスからの勾配情報を量子化対象に組み込む新しい量子化手法である GuidedQuant を提案する。 GuidedQuantは、ウェイトオンリーのスカラー、ウェイトオンリーのベクトル、ウェイト・アンド・アクティベーションの量子化にまたがる最先端の量子化手法の性能を一貫して向上させる。
論文参考訳（メタデータ） (2025-05-11T14:55:09Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
Quantize What Counts: Bit Allocation Insights Informed by Spectral Gaps in Keys and Values [57.54443445583921]
KV量子化法の拡張を目的とした2つの新しい定理を提供する。我々の最初の定理は、キー値ノルム格差(Key-Value Norm Disparity)と呼ばれ、鍵重み行列がよりリッチな情報を持っていることを述べる。第2の定理であるキー駆動量子化(Key-Driven Quantization)は、値上のキーの量子化精度の優先順位付けは、全体的な量子化性能に大きな改善をもたらすという仮説である。
論文参考訳（メタデータ） (2025-02-20T22:24:27Z)
QSpec: Speculative Decoding with Complementary Quantization Schemes [37.007621357142725]
量子化は、推論を加速し、大きな言語モデルのメモリ消費を減らすために、実質的に採用されている。本稿では、投機的復号化のための2つの相補的量子化スキームをシームレスに統合するQSPECと呼ばれる新しい量子化パラダイムを提案する。 QSPECは、品質上の妥協なしにトークン生成スループットを最大1.80倍向上させる。
論文参考訳（メタデータ） (2024-10-15T05:57:51Z)
PrefixQuant: Eliminating Outliers by Prefixed Tokens for Large Language Models Quantization [44.547992997369875]
様々な精度で最先端性能を実現する新しい量子化法であるPrefixQuantを提案する。第一に、PrefixQuantはKVキャッシュにoutlierトークンをプレフィックスすることでトークン単位のoutlierを排除します。第二に、PrefixQuantは、量子化エラーを補うためにブロックワイズトレーニングのための新しいトレーニング可能なパラメータを導入した。
論文参考訳（メタデータ） (2024-10-07T17:59:35Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
Mitigating Quantization Errors Due to Activation Spikes in GLU-Based LLMs [5.408684636210501]
ポストトレーニング量子化(PTQ)は、ウェイトとアクティベーションを定量化し、精度を下げる一般的なアプローチとなっている。本稿では,現代の大規模言語モデルのフィードフォワードネットワーク(FFN)において広く利用されているGLU変種におけるアクティベーション量子化の課題について述べる。本稿では,量子化時のアクティベーションスパイクを分離するために,量子化フリーモジュール(QFeM)と量子化フリープリフィックス(QFeP)の2つの経験的手法を提案する。
論文参考訳（メタデータ） (2024-05-23T10:54:14Z)
WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文参考訳（メタデータ） (2024-02-19T11:33:21Z)
An Efficient Rehearsal Scheme for Catastrophic Forgetting Mitigation during Multi-stage Fine-tuning [55.467047686093025]
このような忘れを緩和するための一般的なアプローチは、微調整中に以前のタスクからサンプルをリハーサルすることである。側方損傷のリハーサルを優先するサンプリング手法である textttbf mix-cd を提案する。我々の手法は計算効率が高く、実装が容易で、計算制約のある設定においていくつかの主要な連続学習手法より優れています。
論文参考訳（メタデータ） (2024-02-12T22:32:12Z)
QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,現行手法の有効性を損なう量子拡散モデルの3つの特性を実証的に明らかにする。重要な時間的情報を保持する層と、ビット幅の低減に敏感な層という、2つの重要なタイプの量子化層を同定する。提案手法は,3つの高分解能画像生成タスクに対して評価し,様々なビット幅設定で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-02-06T03:39:44Z)
Agile-Quant: Activation-Guided Quantization for Faster Inference of LLMs on the Edge [45.690907522226794]
大きな言語モデル(LLM)は、複雑な言語モデリングタスクにおける印象的なパフォーマンスで際立っている。近年の研究では、エンド・ツー・エンドのタスク性能に最小限の影響を伴って、8ビット以下のウェイト量子化が可能であることが示されている。我々は、人気のある大規模言語モデルのためのアクティベーション誘導量子化フレームワークであるAgile-Quantを提案する。
論文参考訳（メタデータ） (2023-12-09T22:12:52Z)
QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文参考訳（メタデータ） (2023-09-05T01:39:09Z)
PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。 PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。 BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文参考訳（メタデータ） (2023-05-30T08:41:33Z)
Cluster-Promoting Quantization with Bit-Drop for Minimizing Network Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。 DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文参考訳（メタデータ） (2021-09-05T15:15:07Z)
Accelerating BERT Inference for Sequence Labeling via Early-Exit [65.7292767360083]
我々は最近成功した早期退避機構を拡張し、シークエンスラベリングタスクに対するPTMの推論を高速化する。また、異なる層で部分トークンを早期に退避させるトークンレベルの早期退避機構も提案する。当社のアプローチでは,パフォーマンスの低下を最小限に抑えながら,最大66%～75%の推論コストを削減できる。
論文参考訳（メタデータ） (2021-05-28T14:39:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。