論文の概要: QAQ: Quality Adaptive Quantization for LLM KV Cache
- arxiv url: http://arxiv.org/abs/2403.04643v1
- Date: Thu, 7 Mar 2024 16:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 13:24:31.214522
- Title: QAQ: Quality Adaptive Quantization for LLM KV Cache
- Title(参考訳): QAQ: LLM KVキャッシュの品質適応量子化
- Authors: Shichen Dong, Wen Cheng, Jiayu Qin, Wei Wang
- Abstract要約: モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。
KVキャッシュのための品質適応量子化スキームQAQを提案する。
- 参考スコア(独自算出の注目度): 3.4559252920522985
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The emergence of LLMs has ignited a fresh surge of breakthroughs in NLP
applications, particularly in domains such as question-answering systems and
text generation. As the need for longer context grows, a significant bottleneck
in model deployment emerges due to the linear expansion of the Key-Value (KV)
cache with the context length. Existing methods primarily rely on various
hypotheses, such as sorting the KV cache based on attention scores for
replacement or eviction, to compress the KV cache and improve model throughput.
However, heuristics used by these strategies may wrongly evict essential KV
cache, which can significantly degrade model performance. In this paper, we
propose QAQ, a Quality Adaptive Quantization scheme for the KV cache. We
theoretically demonstrate that key cache and value cache exhibit distinct
sensitivities to quantization, leading to the formulation of separate
quantization strategies for their non-uniform quantization. Through the
integration of dedicated outlier handling, as well as an improved
attention-aware approach, QAQ achieves up to 10x the compression ratio of the
KV cache size with a neglectable impact on model performance. QAQ significantly
reduces the practical hurdles of deploying LLMs, opening up new possibilities
for longer-context applications. The code is available at
github.com/ClubieDong/KVCacheQuantization.
- Abstract(参考訳): LLMの出現は、特に質問応答システムやテキスト生成といった分野において、NLPアプリケーションにおける突破口の急増に火をつけた。
長いコンテキストの必要性が増大するにつれて、コンテキスト長のキーバリュー(KV)キャッシュが線形に拡張されるため、モデルデプロイメントの重大なボトルネックが発生する。
既存の方法は、KVキャッシュを圧縮し、モデルスループットを改善するために、置換や消去のために注意スコアに基づいてKVキャッシュをソートするなど、様々な仮説に依存している。
しかし、これらの戦略で使用されるヒューリスティックスは、重要なKVキャッシュを誤って排除し、モデル性能を著しく低下させる可能性がある。
本稿では,KVキャッシュの品質適応量子化方式QAQを提案する。
理論上,キーキャッシュと値キャッシュは量子化に対して異なる感度を示し,非一様量子化のための分離量子化戦略を定式化する。
専用のアウトラヤハンドリングの統合と、注意認識アプローチの改善により、QAQは、モデルパフォーマンスに無視可能な影響で、KVキャッシュサイズの最大10倍の圧縮比を達成する。
QAQはLLMをデプロイする際の現実的なハードルを大幅に減らし、より長いコンテキストアプリケーションに新たな可能性を開く。
コードはgithub.com/ClubieDong/KVCacheQuantizationで入手できる。
関連論文リスト
- KV Cache is 1 Bit Per Channel: Efficient Large Language Model Inference with Coupled Quantization [34.824534775022144]
KVキャッシュ圧縮の手法として結合量子化(CQ)を提案する。
CQは複数のキー/バリューチャネルを結合して、その依存性を利用して、より情報効率の良い方法でアクティベーションをエンコードする。
我々は,KVキャッシュを1ビットまで量子化することで,CQがモデル品質を維持できることを実証した。
論文 参考訳(メタデータ) (2024-05-07T00:25:20Z) - Sequence can Secretly Tell You What to Discard [57.109354287786154]
メモリフットプリントを大幅に削減するKVキャッシュを最適化するための新しい手法を提案する。
我々は,KVキャッシュの消去ポリシーであるCORMを提案し,モデルに微調整を加えることなく,推論のためのキーと値のペアを動的に保持する。
CORMは、LongBenchの6つのタスクで顕著なパフォーマンス劣化を伴わずに、KVキャッシュの推論メモリ使用量を最大70%削減する。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - No Token Left Behind: Reliable KV Cache Compression via Importance-Aware
Mixed Precision Quantization [31.806112535762367]
キーバリューキャッシングは、生成型大規模言語モデル(LLM)の推論速度とスループットを加速する重要な技術となっている。
論文 参考訳(メタデータ) (2024-02-28T06:34:54Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression
for Efficient LLM Inference [83.34219335496073]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。
本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。
我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。
このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文 参考訳(メタデータ) (2024-02-08T22:17:40Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするドキュメント分析や要約のようなアプリケーションでの利用が増えている。
KVキャッシュアクティベーションは、推論中のメモリ消費の主要な要因である。
本稿では,KVアクティベーションを定量化するための新しい手法を導入することで,この問題に対処するKVQuantを提案する。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [86.98304577162465]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。