論文の概要: Scissorhands: Exploiting the Persistence of Importance Hypothesis for
LLM KV Cache Compression at Test Time
- arxiv url: http://arxiv.org/abs/2305.17118v1
- Date: Fri, 26 May 2023 17:39:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 13:07:40.369657
- Title: Scissorhands: Exploiting the Persistence of Importance Hypothesis for
LLM KV Cache Compression at Test Time
- Title(参考訳): scissorhands: テスト時のllm kvキャッシュ圧縮における重要度仮説の永続性を活用する
- Authors: Zichang Liu, Aditya Desai, Fangshuo Liao, Weitao Wang, Victor Xie,
Zhaozhuo Xu, Anastasios Kyrillidis, Anshumali Shrivastava
- Abstract要約: 大規模言語モデル(LLM)は、エキサイティングなAIアプリケーションに新たな波を巻き起こした。
デプロイメントにおける重要なメモリボトルネックのひとつは、コンテキストウィンドウにある。
固定予算でKVキャッシュのメモリ使用量を維持するシステムであるScisorhandsを提案する。
- 参考スコア(独自算出の注目度): 35.02624912052864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models(LLMs) have sparked a new wave of exciting AI
applications. Hosting these models at scale requires significant memory
resources. One crucial memory bottleneck for the deployment stems from the
context window. It is commonly recognized that model weights are memory hungry;
however, the size of key-value embedding stored during the generation process
(KV cache) can easily surpass the model size. The enormous size of the KV cache
puts constraints on the inference batch size, which is crucial for high
throughput inference workload. Inspired by an interesting observation of the
attention scores, we hypothesize the persistence of importance: only pivotal
tokens, which had a substantial influence at one step, will significantly
influence future generations. Based on our empirical verification and
theoretical analysis around this hypothesis, we propose Scissorhands, a system
that maintains the memory usage of the KV cache at a fixed budget without
finetuning the model. In essence, Scissorhands manages the KV cache by storing
the pivotal tokens with a higher probability. We validate that Scissorhands
reduces the inference memory usage of the KV cache by up to 5X without
compromising model quality. We further demonstrate that Scissorhands can be
combined with 4-bit quantization, traditionally used to compress model weights,
to achieve up to 20X compression.
- Abstract(参考訳): 大規模言語モデル(LLM)は、エキサイティングなAIアプリケーションに新たな波を巻き起こした。
これらのモデルを大規模にホストするには、かなりのメモリリソースが必要です。
デプロイメントにおける重要なメモリボトルネックのひとつは、コンテキストウィンドウにある。
モデル重みはメモリに飢えていると一般的に認識されるが、生成プロセス(kvキャッシュ)中に格納されたキー値埋め込みのサイズはモデルサイズを上回ることができる。
KVキャッシュの巨大なサイズは、高いスループットの推論ワークロードにとって重要な推論バッチサイズに制約を課します。
注意点の興味深い観察から着想を得た我々は、重要さの持続性を仮説を立てた。
この仮説に関する実証的検証と理論的解析に基づいて、モデルを微調整することなくKVキャッシュのメモリ使用率を一定予算で維持するシステムであるScisorhandsを提案する。
本質的に、ScisorhandsはKVキャッシュを管理するために、より高い確率でキートークンを格納する。
モデル品質を損なうことなく,KVキャッシュの推論メモリ使用量を最大5倍に削減できることを確認した。
さらに,シッソルハンドと4ビット量子化を組み合わせることで,従来モデル重みを圧縮し,最大20倍の圧縮を実現することを実証した。
関連論文リスト
- KV Cache is 1 Bit Per Channel: Efficient Large Language Model Inference with Coupled Quantization [34.824534775022144]
KVキャッシュ圧縮の手法として結合量子化(CQ)を提案する。
CQは複数のキー/バリューチャネルを結合して、その依存性を利用して、より情報効率の良い方法でアクティベーションをエンコードする。
我々は,KVキャッシュを1ビットまで量子化することで,CQがモデル品質を維持できることを実証した。
論文 参考訳(メタデータ) (2024-05-07T00:25:20Z) - Sequence can Secretly Tell You What to Discard [57.109354287786154]
メモリフットプリントを大幅に削減するKVキャッシュを最適化するための新しい手法を提案する。
我々は,KVキャッシュの消去ポリシーであるCORMを提案し,モデルに微調整を加えることなく,推論のためのキーと値のペアを動的に保持する。
CORMは、LongBenchの6つのタスクで顕著なパフォーマンス劣化を伴わずに、KVキャッシュの推論メモリ使用量を最大70%削減する。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。
KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文 参考訳(メタデータ) (2024-03-07T16:42:37Z) - No Token Left Behind: Reliable KV Cache Compression via Importance-Aware
Mixed Precision Quantization [31.806112535762367]
キーバリューキャッシングは、生成型大規模言語モデル(LLM)の推論速度とスループットを加速する重要な技術となっている。
論文 参考訳(メタデータ) (2024-02-28T06:34:54Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression
for Efficient LLM Inference [83.34219335496073]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [70.90551156819498]
大規模言語モデル(LLM)は、要求毎のコストを削減するために、多くのリクエストを一緒に要求する。
キー値(KV)キャッシュはメモリ要求を大幅に増加させ、スピードとメモリ使用における新たなボトルネックとなる。
KVキャッシュサイズを減らすための単純で効果的な解決策は量子化であり、KVキャッシュが取る全バイトを削減する。
KIVIは、Llama (Llama-2)、Falcon、Mistralモデルとほぼ同じ品質を維持しながら、$mathbf2.6times$のピークメモリ使用量を減らすことができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするドキュメント分析や要約のようなアプリケーションでの利用が増えている。
KVキャッシュアクティベーションは、推論中のメモリ消費の主要な要因である。
本稿では,KVアクティベーションを定量化するための新しい手法を導入することで,この問題に対処するKVQuantを提案する。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [86.98304577162465]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。