論文の概要: FlexiCache: Leveraging Temporal Stability of Attention Heads for Efficient KV Cache Management
- arxiv url: http://arxiv.org/abs/2511.00868v1
- Date: Sun, 02 Nov 2025 09:33:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.971028
- Title: FlexiCache: Leveraging Temporal Stability of Attention Heads for Efficient KV Cache Management
- Title(参考訳): FlexiCache: 効率的なKVキャッシュ管理のためのアテンションヘッドの一時的な安定性を活用する
- Authors: Nazmul Takbir, Hamidreza Alikhani, Nikil Dutt, Sangeetha Abdu Jyothi,
- Abstract要約: 大規模言語モデル (LLM) はキー値 (KV) キャッシュの増大によってますます制限される。
我々は,KVヘッドの時間的安定性を活用する階層型KVキャッシュ管理システムであるFlexiCacheを紹介する。
FlexiCacheは、長文リクエストのGPUメモリフットプリントを最大70%削減し、オフラインのサービススループットを1.38-1.55倍改善し、オンライントークンのレイテンシを1.6-2.1倍削減する。
- 参考スコア(独自算出の注目度): 1.480714397225998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) serving is increasingly constrained by the growing size of the key-value (KV) cache, which scales with both context length and generation length. Prior work shows that attention is dominated by a small subset of critical tokens, yet existing systems struggle to exploit this efficiently without degrading accuracy, especially in long generation. We make a key observation: the temporal stability of these critical tokens varies significantly across KV heads: some heads consistently focus on the same tokens, while others shift frequently. Building on this insight, we introduce FlexiCache, a hierarchical KV-cache management system that leverages the temporal stability of KV heads to reduce GPU memory usage and computation overhead, while preserving model accuracy. FlexiCache classifies KV heads as stable or unstable: it retains all KV-cache pages from unstable heads in GPU memory, whereas for stable heads, it keeps only the top-K pages on the GPU and offloads the rest to host memory. By exploiting temporal stability, FlexiCache performs periodic reranking for stable heads to fetch newly promoted top pages. Implemented atop vLLM, FlexiCache reduces GPU memory footprint for long-context requests by up to 70%, improves offline serving throughput by 1.38-1.55x, and lowers online token latency by 1.6-2.1x, all while maintaining accuracy in long-context, long-generation scenarios.
- Abstract(参考訳): 大きな言語モデル(LLM)は、コンテキスト長と生成長の両方でスケールするキー値(KV)キャッシュのサイズが大きくなることで、ますます制限される。
以前の研究は、注意が重要なトークンの小さなサブセットに支配されていることを示しているが、既存のシステムは、特に長い世代において、精度を低下させることなく、これを効率的に活用することに苦労している。
重要な観察は、これらの臨界トークンの時間的安定性は、KVヘッド間で大きく異なり、いくつかの頭は一貫して同じトークンにフォーカスするが、他の頭は頻繁にシフトする。
モデル精度を保ちながら,KVヘッドの時間的安定性を活用し,GPUメモリ使用量と計算オーバーヘッドを低減する階層的なKVキャッシュ管理システムであるFlexiCacheを導入する。
すべてのKVキャッシュページをGPUメモリの不安定なヘッドから保持するのに対して、安定したヘッドではGPU上のトップKページだけを保持し、残りをホストメモリにオフロードする。
時間的安定性を活用することで、FlexiCacheは、安定したヘッドを定期的にリランクして、新しく昇格したトップページを取得する。
vLLM上に実装されたFlexiCacheは、長文リクエストのGPUメモリフットプリントを最大70%削減し、オフラインのサービススループットを1.38-1.55倍改善し、オンライントークンのレイテンシを1.6-2.1倍削減する。
関連論文リスト
- Paged Attention Meets FlexAttention: Unlocking Long-Context Efficiency in Deployed Inference [1.0175051111288864]
我々はPyTorchのFlexAttentionとPagedAttentionの新たな統合を紹介します。
NVIDIA L4 GPUのベンチマークでは、推論遅延が大幅に削減された。
実装全体をオープンソースとして公開し、将来の長期コンテキストモデル展開におけるその意義について論じます。
論文 参考訳(メタデータ) (2025-06-08T22:59:20Z) - CAKE: Cascading and Adaptive KV Cache Eviction with Layer Preferences [36.05521425453999]
大きな言語モデル(LLM)は長いシーケンスの処理に優れ、キーバリュー(KV)キャッシングの需要が増大する。
我々は、KVキャッシュ消去を「ケーキスライシング問題」とみなす新しいアプローチであるCascading and Adaptive KV cache Eviction (CAKE)を導入する。
CAKEは、空間次元と時間次元の両方の注意ダイナミクスを考慮して層固有の好みを評価し、それに応じて合理的なキャッシュサイズを割り当て、カスケード方式でメモリ制約を管理する。
論文 参考訳(メタデータ) (2025-03-16T12:49:44Z) - LLMs Know What to Drop: Self-Attention Guided KV Cache Eviction for Efficient Long-Context Inference [16.83202690345235]
長文推論のための単純かつ効果的なKV消去キャッシュ手法であるSelf-Attention Guided Eviction(SAGE-KV)を提案する。
プリフィル後,KVキャッシュを圧縮するためにトークンとヘッドの両方で1回のトップk選択を行う。
SAGE-KV は静的 KV キャッシュ選択法 StreamLLM よりも精度が向上し,動的 KV キャッシュ選択法 Quest よりも精度が良く,メモリ効率が 4 倍向上する。
論文 参考訳(メタデータ) (2025-03-11T20:45:02Z) - Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。
保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。
我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文 参考訳(メタデータ) (2025-03-02T18:12:50Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。