論文の概要: No Token Left Behind: Reliable KV Cache Compression via Importance-Aware
Mixed Precision Quantization
- arxiv url: http://arxiv.org/abs/2402.18096v1
- Date: Wed, 28 Feb 2024 06:34:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 16:04:10.159276
- Title: No Token Left Behind: Reliable KV Cache Compression via Importance-Aware
Mixed Precision Quantization
- Title(参考訳): No Tokenが残る - 重要度対応混合精度量子化による信頼性の高いKVキャッシュ圧縮
- Authors: June Yong Yang, Byeongwook Kim, Jeongin Bae, Beomseok Kwon, Gunho
Park, Eunho Yang, Se Jung Kwon, Dongsoo Lee
- Abstract要約: キーバリューキャッシングは、生成型大規模言語モデル(LLM)の推論速度とスループットを加速する重要な技術となっている。
- 参考スコア(独自算出の注目度): 31.806112535762367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Key-Value (KV) Caching has become an essential technique for accelerating the
inference speed and throughput of generative Large Language Models~(LLMs).
However, the memory footprint of the KV cache poses a critical bottleneck in
LLM deployment as the cache size grows with batch size and sequence length,
often surpassing even the size of the model itself. Although recent methods
were proposed to select and evict unimportant KV pairs from the cache to reduce
memory consumption, the potential ramifications of eviction on the generative
process are yet to be thoroughly examined. In this paper, we examine the
detrimental impact of cache eviction and observe that unforeseen risks arise as
the information contained in the KV pairs is exhaustively discarded, resulting
in safety breaches, hallucinations, and context loss. Surprisingly, we find
that preserving even a small amount of information contained in the evicted KV
pairs via reduced precision quantization substantially recovers the incurred
degradation. On the other hand, we observe that the important KV pairs must be
kept at a relatively higher precision to safeguard the generation quality.
Motivated by these observations, we propose \textit{Mixed-precision KV
cache}~(MiKV), a reliable cache compression method that simultaneously
preserves the context details by retaining the evicted KV pairs in
low-precision and ensure generation quality by keeping the important KV pairs
in high-precision. Experiments on diverse benchmarks and LLM backbones show
that our proposed method offers a state-of-the-art trade-off between
compression ratio and performance, compared to other baselines.
- Abstract(参考訳): キーバリューキャッシング(KV)は,生成型大規模言語モデル~(LLM)の推論速度とスループットを高速化する重要な手法となっている。
しかし、kvキャッシュのメモリフットプリントは、キャッシュサイズがバッチサイズとシーケンス長とともに大きくなるにつれて、llmデプロイメントにおいて重大なボトルネックとなり、しばしばモデル自体の大きさを超える。
近年,メモリ消費を減らすために重要でないkv対をキャッシュから選択・消去する手法が提案されているが,生成過程における退化の潜在的な分岐についてはまだ検討されていない。
本稿では,キャッシュ消去による有害な影響について検討し,KVペアに含まれる情報が徹底的に破棄され,安全性の侵害,幻覚,コンテキスト損失が生じることにより,予期せぬリスクが生じることを観察する。
意外なことに,KVペアに含まれる少量の情報さえも,精度の低下による保存が,劣化を著しく回復させることがわかった。
一方, 重要なkv対は, 生成品質を保護するため, 比較的高い精度で維持されなければならない。
これらの観測により,KVペアを低精度に保持し,重要なKVペアを高精度に保持することで生成品質を確保することにより,コンテキストの詳細を同時に保存する信頼性の高いキャッシュ圧縮手法である‘textit{Mixed-precision KV cache} ~(MiKV) を提案する。
各種ベンチマークとLCMバックボーンを用いた実験により,提案手法は圧縮比と性能のトレードオフを他のベースラインと比較できることを示した。
関連論文リスト
- KV Cache is 1 Bit Per Channel: Efficient Large Language Model Inference with Coupled Quantization [34.824534775022144]
KVキャッシュ圧縮の手法として結合量子化(CQ)を提案する。
CQは複数のキー/バリューチャネルを結合して、その依存性を利用して、より情報効率の良い方法でアクティベーションをエンコードする。
我々は,KVキャッシュを1ビットまで量子化することで,CQがモデル品質を維持できることを実証した。
論文 参考訳(メタデータ) (2024-05-07T00:25:20Z) - Sequence can Secretly Tell You What to Discard [57.109354287786154]
メモリフットプリントを大幅に削減するKVキャッシュを最適化するための新しい手法を提案する。
我々は,KVキャッシュの消去ポリシーであるCORMを提案し,モデルに微調整を加えることなく,推論のためのキーと値のペアを動的に保持する。
CORMは、LongBenchの6つのタスクで顕著なパフォーマンス劣化を伴わずに、KVキャッシュの推論メモリ使用量を最大70%削減する。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。
KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文 参考訳(メタデータ) (2024-03-07T16:42:37Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression
for Efficient LLM Inference [83.34219335496073]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。
本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。
我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。
このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文 参考訳(メタデータ) (2024-02-08T22:17:40Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [70.90551156819498]
大規模言語モデル(LLM)は、要求毎のコストを削減するために、多くのリクエストを一緒に要求する。
キー値(KV)キャッシュはメモリ要求を大幅に増加させ、スピードとメモリ使用における新たなボトルネックとなる。
KVキャッシュサイズを減らすための単純で効果的な解決策は量子化であり、KVキャッシュが取る全バイトを削減する。
KIVIは、Llama (Llama-2)、Falcon、Mistralモデルとほぼ同じ品質を維持しながら、$mathbf2.6times$のピークメモリ使用量を減らすことができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするドキュメント分析や要約のようなアプリケーションでの利用が増えている。
KVキャッシュアクティベーションは、推論中のメモリ消費の主要な要因である。
本稿では,KVアクティベーションを定量化するための新しい手法を導入することで,この問題に対処するKVQuantを提案する。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [86.98304577162465]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z) - Scissorhands: Exploiting the Persistence of Importance Hypothesis for
LLM KV Cache Compression at Test Time [38.147965013060144]
大規模言語モデル(LLM)は、エキサイティングなAIアプリケーションに新たな波を巻き起こした。
デプロイメントにおける重要なメモリボトルネックのひとつは、コンテキストウィンドウにある。
固定予算でKVキャッシュのメモリ使用量を維持するシステムであるScisorhandsを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:39:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。