論文の概要: CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving
- arxiv url: http://arxiv.org/abs/2310.07240v6
- Date: Fri, 19 Jul 2024 21:04:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 05:36:51.450706
- Title: CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving
- Title(参考訳): CacheGen: KVキャッシュ圧縮と高速大規模言語モデルのストリーミング
- Authors: Yuhan Liu, Hanchen Li, Yihua Cheng, Siddhant Ray, Yuyang Huang, Qizheng Zhang, Kuntai Du, Jiayi Yao, Shan Lu, Ganesh Ananthanarayanan, Michael Maire, Henry Hoffmann, Ari Holtzman, Junchen Jiang,
- Abstract要約: CacheGenは、大きな言語モデルのための高速なコンテキストローディングモジュールである。
カスタムテンソルエンコーダを使用して、KVキャッシュをコンパクトなビットストリーム表現にエンコードする。
KVキャッシュの異なる部分の圧縮レベルを適用して、利用可能な帯域幅の変化に対処する。
- 参考スコア(独自算出の注目度): 31.766738294505767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) take on complex tasks, their inputs are supplemented with longer contexts that incorporate domain knowledge. Yet using long contexts is challenging, as nothing can be generated until the whole context is processed by the LLM. While the context-processing delay can be reduced by reusing the KV cache of a context across different inputs, fetching the KV cache, which contains large tensors, over the network can cause high extra network delays. CacheGen is a fast context-loading module for LLM systems. First, CacheGen uses a custom tensor encoder, leveraging KV cache's distributional properties to encode a KV cache into more compact bitstream representations with negligible decoding overhead, to save bandwidth usage. Second, CacheGen adapts the compression level of different parts of a KV cache to cope with changes in available bandwidth, in order to maintain low context-loading delay and high generation quality. % When available bandwidth drops, CacheGen may raise the compression level for a part of the context or recompute its KV cache on the fly. We test CacheGen on popular LLMs and datasets. Compared to the recent systems that reuse the KV cache, CacheGen reduces the KV cache size by 3.5-4.3x and the total delay in fetching and processing contexts by 3.2-3.7x with negligible impact on the LLM response quality. Our code is at: https://github.com/UChi-JCL/CacheGen.
- Abstract(参考訳): 大きな言語モデル(LLM)が複雑なタスクをこなすにつれて、その入力はドメイン知識を組み込んだ長いコンテキストで補われます。
しかし、LLMがコンテキスト全体を処理するまで何も生成できないため、長いコンテキストを使うことは難しい。
異なる入力間でコンテキストのKVキャッシュを再利用することで、コンテキスト処理の遅延を低減できるが、ネットワーク上の大きなテンソルを含むKVキャッシュをフェッチすることで、ネットワーク上のネットワーク遅延が増大する可能性がある。
CacheGenは、LLMシステムのための高速なコンテキストローディングモジュールである。
まず、CacheGenはカスタムのテンソルエンコーダを使用し、KVキャッシュの分散特性を利用して、KVキャッシュをよりコンパクトなビットストリーム表現にエンコードし、デコードオーバーヘッドを無視して帯域幅を節約する。
第二に、CacheGenはKVキャッシュの異なる部分の圧縮レベルに適応して、低コンテキストローディング遅延と高生成品質を維持するために、利用可能な帯域幅の変化に対処する。
% 利用可能な帯域幅が減少すると、CacheGenはコンテクストの一部の圧縮レベルを上げたり、KVキャッシュをオンザフライで再計算する。
一般的なLLMとデータセットでCacheGenをテストします。
KVキャッシュを再利用した最近のシステムと比較すると、CacheGenはKVキャッシュのサイズを3.5-4.3xに減らし、LLMの応答品質に無視できない影響を与えながら、フェッチと処理のコンテキストを3.2-3.7xに減らした。
私たちのコードは以下の通りです。
関連論文リスト
- VL-Cache: Sparsity and Modality-Aware KV Cache Compression for Vision-Language Model Inference Acceleration [7.463830743649754]
VLM(Vision-Language Models)は、多目的なタスクセットにまたがる印象的なパフォーマンスを実証している。
キーバリュー(KV)キャッシュは、画像やビデオなどの長い視覚的コンテキストをエンコードする。
既存のKVキャッシュ圧縮手法は大規模言語モデル(LLM)に有効である
VLM推論の高速化に適した新しいKVキャッシュ圧縮レシピを提案する。
論文 参考訳(メタデータ) (2024-10-29T20:04:34Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは、双方向並列化KVキャッシュ生成戦略を採用した、新しいKVキャッシュローダである。
プレフィックスキャッシュ位置から保存されたKVキャッシュを同時に動的にロードし、ローカルGPU上でKVキャッシュを計算する。
最大68.1%のTTFT(Time To First Token)削減を計算専用法と比較し、94.6%のTTFT削減をI/O専用法と比較する。
論文 参考訳(メタデータ) (2024-10-04T01:11:09Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion [15.344568214955688]
大規模な言語モデル(LLM)は、必要なコンテキストを提供するために、入力に複数のテキストチャンクを組み込むことが多い。
プリフィルを高速化するために、テキストのKVキャッシュをプリコンプリートし、コンテキストが別のLCM入力のプレフィックスとして再利用されるときにKVキャッシュを再使用することができる。
我々は,プリコンパイルされたKVキャッシュをプレフィックスの有無にかかわらず再利用し,トークンの小さなサブセットのKV値を選択的に再計算し,再利用されたKVキャッシュを部分的に更新する方式であるCacheBlendを提案する。
論文 参考訳(メタデータ) (2024-05-26T06:00:17Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。