論文の概要: CacheGen: Fast Context Loading for Language Model Applications
- arxiv url: http://arxiv.org/abs/2310.07240v1
- Date: Wed, 11 Oct 2023 07:08:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 02:32:25.555075
- Title: CacheGen: Fast Context Loading for Language Model Applications
- Title(参考訳): CacheGen: 言語モデルアプリケーションのための高速なコンテキストローディング
- Authors: Yuhan Liu, Hanchen Li, Kuntai Du, Jiayi Yao, Yihua Cheng, Yuyang
Huang, Shan Lu, Michael Maire, Henry Hoffmann, Ari Holtzman, Ganesh
Ananthanarayanan, Junchen Jiang
- Abstract要約: CacheGenは、新しいエンコーダを通じて、長いコンテキストのキー値の機能を送信するのに必要な帯域幅を削減する。
CacheGenは、帯域幅を3.7-4.3x削減し、フェッチと処理の合計遅延を2.7-3x削減する。
長いコンテキストを扱う最近の方法と比較して、CacheGenは帯域幅を3.7-4.3倍に減らし、フェッチと処理の合計遅延を2.7-3倍に減らした。
- 参考スコア(独自算出の注目度): 34.16584746176275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) take on more complex tasks, their inputs
incorporate longer contexts to respond to questions that require domain
knowledge or user-specific conversational histories. Yet, using long contexts
poses a challenge for responsive LLM systems, as nothing can be generated until
all the contexts are fetched to and processed by the LLM. Existing systems
optimize only the computation delay in context processing (e.g., by caching
intermediate key-value features of the text context) but often cause longer
network delays in context fetching (e.g., key-value features consume orders of
magnitude larger bandwidth than the text context).
This paper presents CacheGen to minimize the delays in fetching and
processing contexts for LLMs. CacheGen reduces the bandwidth needed for
transmitting long contexts' key-value (KV) features through a novel encoder
that compresses KV features into more compact bitstream representations. The
encoder combines adaptive quantization with a tailored arithmetic coder, taking
advantage of the KV features' distributional properties, such as locality
across tokens. Furthermore, CacheGen minimizes the total delay in fetching and
processing a context by using a controller that determines when to load the
context as compressed KV features or raw text and picks the appropriate
compression level if loaded as KV features. We test CacheGen on three models of
various sizes and three datasets of different context lengths. Compared to
recent methods that handle long contexts, CacheGen reduces bandwidth usage by
3.7-4.3x and the total delay in fetching and processing contexts by 2.7-3x
while maintaining similar LLM performance on various tasks as loading the text
contexts.
- Abstract(参考訳): 大きな言語モデル(LLM)がより複雑なタスクをこなすにつれて、その入力はドメイン知識やユーザ固有の会話履歴を必要とする質問に応答するために長いコンテキストを組み込む。
しかし、長いコンテキストを使用すると、全てのコンテキストがLLMにフェッチされ処理されるまで何も生成できないため、応答性のあるLLMシステムにとって課題となる。
既存のシステムは、コンテキスト処理の計算遅延のみを最適化する(例えば、テキストコンテキストの中間のキー値特徴をキャッシュする)が、しばしばコンテキストフェッチのネットワーク遅延(例えば、キー値特徴がテキストコンテキストよりも桁違いに大きな帯域幅を消費する)を引き起こす。
本稿では,LLMのフェッチと処理の遅延を最小限に抑えるためにCacheGenを提案する。
CacheGenは、KV機能をよりコンパクトなビットストリーム表現に圧縮する新しいエンコーダを通じて、長いコンテキストのキー値(KV)機能を送信するのに必要な帯域幅を削減する。
エンコーダは適応量子化と調整された算術コーダを組み合わせて、トークン間の局所性のようなKV特徴の分布特性を利用する。
さらに、CacheGenは、圧縮KV機能または生テキストとしてコンテキストをいつロードするかを決定するコントローラを使用して、コンテキストのフェッチと処理の全体的な遅延を最小化し、KV機能としてロードされた場合、適切な圧縮レベルを選択する。
さまざまなサイズの3つのモデルと異なるコンテキスト長の3つのデータセットでCacheGenをテストする。
長いコンテキストを扱う最近の手法と比較して、CacheGenは帯域幅を3.7-4.3xに減らし、フェッチと処理の合計遅延を2.7-3xに減らした。
関連論文リスト
- VL-Cache: Sparsity and Modality-Aware KV Cache Compression for Vision-Language Model Inference Acceleration [7.463830743649754]
VLM(Vision-Language Models)は、多目的なタスクセットにまたがる印象的なパフォーマンスを実証している。
キーバリュー(KV)キャッシュは、画像やビデオなどの長い視覚的コンテキストをエンコードする。
既存のKVキャッシュ圧縮手法は大規模言語モデル(LLM)に有効である
VLM推論の高速化に適した新しいKVキャッシュ圧縮レシピを提案する。
論文 参考訳(メタデータ) (2024-10-29T20:04:34Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは、双方向並列化KVキャッシュ生成戦略を採用した、新しいKVキャッシュローダである。
プレフィックスキャッシュ位置から保存されたKVキャッシュを同時に動的にロードし、ローカルGPU上でKVキャッシュを計算する。
最大68.1%のTTFT(Time To First Token)削減を計算専用法と比較し、94.6%のTTFT削減をI/O専用法と比較する。
論文 参考訳(メタデータ) (2024-10-04T01:11:09Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion [15.344568214955688]
大規模な言語モデル(LLM)は、必要なコンテキストを提供するために、入力に複数のテキストチャンクを組み込むことが多い。
プリフィルを高速化するために、テキストのKVキャッシュをプリコンプリートし、コンテキストが別のLCM入力のプレフィックスとして再利用されるときにKVキャッシュを再使用することができる。
我々は,プリコンパイルされたKVキャッシュをプレフィックスの有無にかかわらず再利用し,トークンの小さなサブセットのKV値を選択的に再計算し,再利用されたKVキャッシュを部分的に更新する方式であるCacheBlendを提案する。
論文 参考訳(メタデータ) (2024-05-26T06:00:17Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。