論文の概要: SpeCache: Speculative Key-Value Caching for Efficient Generation of LLMs
- arxiv url: http://arxiv.org/abs/2503.16163v1
- Date: Thu, 20 Mar 2025 14:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:34:40.909423
- Title: SpeCache: Speculative Key-Value Caching for Efficient Generation of LLMs
- Title(参考訳): SpeCache: LLMの効率的な生成のための投機的キーバリューキャッシング
- Authors: Shibo Jie, Yehui Tang, Kai Han, Zhi-Hong Deng, Jing Han,
- Abstract要約: 我々は,完全なKVキャッシュをオフロードし,各デコードステップでKVペアを動的にフェッチするSpeCacheを提案する。
LongBenchとNeedle-in-a-Haystackベンチマークの実験では、SpeCacheがVRAMの使用を効果的に削減していることが確認されている。
- 参考スコア(独自算出の注目度): 44.41154292836592
- License:
- Abstract: Transformer-based large language models (LLMs) have already achieved remarkable results on long-text tasks, but the limited GPU memory (VRAM) resources struggle to accommodate the linearly growing demand for key-value (KV) cache as the sequence length increases, which has become a bottleneck for the application of LLMs on long sequences. Existing KV cache compression methods include eviction, merging, or quantization of the KV cache to reduce its size. However, compression results in irreversible information forgetting, potentially affecting the accuracy of subsequent decoding. In this paper, we propose SpeCache, which takes full advantage of the large and easily expandable CPU memory to offload the complete KV cache, and dynamically fetches KV pairs back in each decoding step based on their importance measured by low-bit KV cache copy in VRAM. To avoid inference latency caused by CPU-GPU communication, SpeCache speculatively predicts the KV pairs that the next token might attend to, allowing us to prefetch them before the next decoding step which enables parallelization of prefetching and computation. Experiments on LongBench and Needle-in-a-Haystack benchmarks verify that SpeCache effectively reduces VRAM usage while avoiding information forgetting for long sequences without re-training, even with a 10x high KV cache compression ratio.
- Abstract(参考訳): トランスフォーマーベースの大規模言語モデル(LLM)は、すでに長文タスクにおいて顕著な成果を上げているが、限られたGPUメモリ(VRAM)リソースは、シーケンス長が増加するにつれて、キー値(KV)キャッシュに対する線形的に増大する需要に対応するのに苦労している。
既存のKVキャッシュ圧縮手法には、KVキャッシュの消去、マージ、量子化がある。
しかし、圧縮によって不可逆的な情報が忘れられ、その後の復号の精度に影響を及ぼす可能性がある。
本稿では,大容量で拡張しやすいCPUメモリをフル活用して完全なKVキャッシュをオフロードし,VRAMの低ビットKVキャッシュコピーによって測定された重要度に基づいて,各デコードステップでKVペアを動的にフェッチするSpeCacheを提案する。
CPU-GPU通信による推論遅延を回避するため、SpeCacheは、次のトークンが参加する可能性のあるKVペアを投機的に予測し、プリフェッチと計算の並列化を可能にする次のデコードステップの前にそれらをプリフェッチすることができる。
LongBenchとNeedle-in-a-Haystackベンチマークの実験では、SpeCacheは10倍のKVキャッシュ圧縮比であっても、リトレーニングなしで長いシーケンスの情報を忘れることなく、VRAMの使用を効果的に削減する。
関連論文リスト
- SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - Batch-Max: Higher LLM Throughput using Larger Batch Sizes and KV Cache Compression [41.03687128997965]
いくつかの研究が、より効率的な推論のためにKVキャッシュからキーと値のペアを除去するための消去ポリシーを開発した。
入力処理フェーズ中にKVキャッシュを圧縮することにより、より大きなバッチサイズを使用でき、スループットが大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-12-07T16:41:54Z) - ShadowKV: KV Cache in Shadows for High-Throughput Long-Context LLM Inference [25.638980944695728]
ShadowKVは、LLM(Long-Context Large Language Model)推論システムである。
低ランクのキーキャッシュを格納し、バリューキャッシュをオフロードすることで、より大きなバッチサイズと長いシーケンスのためにメモリフットプリントを削減する。
最大6$times$大きなバッチサイズをサポートし、A100 GPUで最大3.04$times$までスループットを向上できる。
論文 参考訳(メタデータ) (2024-10-28T19:08:12Z) - Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは計算資源とI/Oリソースを並列に最適に利用する新しいKVキャッシュローディングシステムである。
Cakeは、計算のみの手法やI/Oのみの手法と比較して、TTFT(Time to First Token)の平均2.6倍の削減を実現している。
論文 参考訳(メタデータ) (2024-10-04T01:11:09Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference [57.53291046180288]
大規模言語モデル(LLM)は、目覚ましい理解能力を示しているが、推論中のGPUメモリ使用の課題に直面している。
本稿では,KVキャッシュを重要なコンテキストを階層的に保持することで圧縮するPraamidInferを提案する。
PyramidInferは、KVキャッシュで54%以上のGPUメモリを削減したAccelerateと比較して、2.2倍のスループットを改善している。
論文 参考訳(メタデータ) (2024-05-21T06:46:37Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。