論文の概要: IceCache: Memory-efficient KV-cache Management for Long-Sequence LLMs
- arxiv url: http://arxiv.org/abs/2604.10539v1
- Date: Sun, 12 Apr 2026 09:02:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.084914
- Title: IceCache: Memory-efficient KV-cache Management for Long-Sequence LLMs
- Title(参考訳): アイスキャッシュ:長期LLMにおけるメモリ効率のよいKVキャッシュ管理
- Authors: Yuzhen Mao, Qitong Wang, Martin Ester, Ke Li,
- Abstract要約: キーバリュー(KV)キャッシュは、大規模言語モデルにおける推論の加速に重要な役割を果たす。
セマンティックトークンクラスタリングとPagedAttentionを統合した新しいKVキャッシュ管理戦略を提案する。
256の予算で、IceCacheは完全なKVキャッシュモデルによって達成された元の精度の99%を維持している。
- 参考スコア(独自算出の注目度): 12.353502602473695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Key-Value (KV) cache plays a crucial role in accelerating inference in large language models (LLMs) by storing intermediate attention states and avoiding redundant computation during autoregressive generation. However, its memory footprint scales linearly with sequence length, often leading to severe memory bottlenecks on resource-constrained hardware. Prior work has explored offloading KV cache to the CPU while retaining only a subset on the GPU, but these approaches often rely on imprecise token selection and suffer performance degradation in long-generation tasks such as chain-of-thought reasoning. In this paper, we propose a novel KV cache management strategy, IceCache, which integrates semantic token clustering with PagedAttention. By organizing semantically related tokens into contiguous memory regions managed by a hierarchical, dynamically updatable data structure, our method enables more efficient token selection and better utilization of memory bandwidth during CPU-GPU transfers. Experimental results on LongBench show that, with a 256-token budget, IceCache maintains 99% of the original accuracy achieved by the full KV cache model. Moreover, compared to other offloading-based methods, IceCache attains competitive or even superior latency and accuracy while using only 25% of the KV cache token budget, demonstrating its effectiveness in long-sequence scenarios. The code is available on our project website at https://yuzhenmao.github.io/IceCache/.
- Abstract(参考訳): キーバリュー(KV)キャッシュは、中間注意状態を格納し、自己回帰生成時に冗長な計算を避けることで、大きな言語モデル(LLM)の推論を加速する上で重要な役割を果たす。
しかし、メモリフットプリントはシーケンス長と線形にスケールし、しばしばリソース制約のハードウェア上で深刻なメモリボトルネックを引き起こす。
以前の作業では、GPUのサブセットのみを保持しながら、KVキャッシュをCPUにオフロードすることを検討したが、これらのアプローチは、不正確なトークンの選択に頼り、チェーンオブソート推論のような長期的なタスクでパフォーマンス劣化を被ることが多い。
本稿では,PagedAttentionとセマンティックトークンクラスタリングを統合した新しいKVキャッシュ管理戦略IceCacheを提案する。
階層的で動的に更新可能なデータ構造によって管理される連続メモリ領域に意味論的に関連付けられたトークンを整理することにより、CPU-GPU転送時のより効率的なトークン選択とメモリ帯域幅の活用が可能になる。
LongBenchの実験結果によると、256トンの予算で、IceCacheは完全なKVキャッシュモデルによって達成された元の精度の99%を維持している。
さらに、他のオフロードベースの方法と比較して、IceCacheはKVキャッシュトークンの予算の25%しか使用せず、競合的あるいはさらに優れたレイテンシと精度を実現し、長時間のシナリオでその有効性を実証している。
コードはプロジェクトのWebサイトhttps://yuzhenmao.github.io/IceCache/.com/で公開されている。
関連論文リスト
- LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。
LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文 参考訳(メタデータ) (2025-07-14T19:09:57Z) - SpeCache: Speculative Key-Value Caching for Efficient Generation of LLMs [44.41154292836592]
我々は,完全なKVキャッシュをオフロードし,各デコードステップでKVペアを動的にフェッチするSpeCacheを提案する。
LongBenchとNeedle-in-a-Haystackベンチマークの実験では、SpeCacheがVRAMの使用を効果的に削減していることが確認されている。
論文 参考訳(メタデータ) (2025-03-20T14:01:56Z) - Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは計算資源とI/Oリソースを並列に最適に利用する新しいKVキャッシュローディングシステムである。
Cakeは、計算のみの手法やI/Oのみの手法と比較して、TTFT(Time to First Token)の平均2.6倍の削減を実現している。
論文 参考訳(メタデータ) (2024-10-04T01:11:09Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。