論文の概要: Stateful KV Cache Management for LLMs: Balancing Space, Time, Accuracy, and Positional Fidelity
- arxiv url: http://arxiv.org/abs/2511.04686v1
- Date: Thu, 23 Oct 2025 18:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:30.975441
- Title: Stateful KV Cache Management for LLMs: Balancing Space, Time, Accuracy, and Positional Fidelity
- Title(参考訳): LLMのためのステートフルKVキャッシュ管理:空間、時間、精度、位置の忠実さのバランス
- Authors: Pratik Poudel,
- Abstract要約: キーバリュー(KV)キャッシュは、大規模言語モデル(LLM)における効率的な自己回帰推論に不可欠である
本稿では,KVキャッシュ管理戦略とメタラマ/メタラマ-3-8b-インストラクトのようなモデルのアーキテクチャ的コンテキスト制限との相互作用について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Key-Value (KV) cache is integral to efficient autoregressive inference in large language models (LLMs), yet its unbounded growth in stateful multi-turn scenarios presents major challenges. This paper examines the interplay between KV cache management strategies, the architectural context limits of models like meta-llama/Meta-Llama-3-8b-instruct, and the often-overlooked integrity of positional encodings. Through empirical analysis using a stateful benchmarking framework, we show that LLM generation quality degrades sharply when the accumulated KV cache approaches or exceeds the model's trained context window (e.g., 8192 tokens for Llama 3), a failure mode distinct from GPU memory exhaustion. Common eviction strategies, even high-retention ones (e.g., 99% via AttentionTop), can worsen performance if they disrupt positional coherence. Because LLMs rely on consistent positional signals (e.g., RoPE), compacting a cache by removing non-contiguous tokens can scramble these signals and lead to degenerative outputs. We further show that simple strategies preserving contiguous context blocks (e.g., keeping an initial "gist") can yield more coherent generations than complex or positionally disruptive ones. We advocate for eviction techniques that respect architectural limits, preserve positional structure, and view "cache health" holistically beyond mere size.
- Abstract(参考訳): キーバリュー(KV)キャッシュは、大規模言語モデル(LLM)における効率的な自己回帰推論に不可欠なものだが、ステートフルなマルチターンシナリオにおける非バウンドな成長には大きな課題がある。
本稿では,KVキャッシュ管理戦略の相互作用,メタラマ/メタラマ-3-8b-インストラクタのようなモデルのアーキテクチャ的コンテキスト制限,位置エンコーディングの整合性について検討する。
ステートフルなベンチマークフレームワークを用いた実証分析により,蓄積したKVキャッシュがモデルのトレーニング済みコンテキストウインドウ(Llama 3の8192トークンなど)に近づくと,LCM生成品質が急激に低下することを示した。
一般的な排除戦略(例えば、AttentionTop経由で99%)は、位置コヒーレンスを乱すとパフォーマンスが悪化する。
LLMは一貫した位置信号(例えばRoPE)に依存しているため、不連続なトークンを除去することでキャッシュをコンパクト化することで、これらの信号をスクランブルし、退化出力につながる。
さらに、連続したコンテキストブロック(例えば、初期"gist"を維持する)を保存する単純な戦略は、複雑なものや、位置的に破壊的なものよりも、より一貫性のある世代を生み出すことが示される。
我々は,建築的限界を尊重し,位置的構造を保ち,ただの規模を超えた「健康」を均等に見るような排除手法を提唱する。
関連論文リスト
- KVCompose: Efficient Structured KV Cache Compression with Composite Tokens [7.922206020386125]
大規模言語モデル(LLM)は、効率的な自己回帰復号化のためにキー値(KV)キャッシュに依存している。
我々は,注意誘導型,層適応型複合トークンに基づく,シンプルで効果的なKVキャッシュ圧縮フレームワークを提案する。
本手法は精度を保ちながらメモリの大幅な削減を実現し,従来手法と半構造化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-05T14:58:24Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - In-context KV-Cache Eviction for LLMs via Attention-Gate [12.732519329131392]
KVキャッシュ技術は、大規模言語モデル(LLM)の推論の標準となっている。
本稿では,Attention-Gateと呼ばれる軽量モジュールをモデルに注入することで,KVキャッシュの動的な消去ポリシーを実現する。
提案手法は複数のシナリオにまたがって実験的に評価され,冗長トークンの有効排除は効率を向上するだけでなく,性能も向上することを示した。
論文 参考訳(メタデータ) (2024-10-15T05:01:19Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。