論文の概要: Cache What Lasts: Token Retention for Memory-Bounded KV Cache in LLMs
- arxiv url: http://arxiv.org/abs/2512.03324v1
- Date: Wed, 03 Dec 2025 00:20:35 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:15:01.593008
- Title: Cache What Lasts: Token Retention for Memory-Bounded KV Cache in LLMs
- Title(参考訳): キャッシュ: LLMにおけるメモリ境界KVキャッシュのトークン保持
- Authors: Ngoc Bui, Shubham Sharma, Simran Lamba, Saumitra Mishra, Rex Ying,
- Abstract要約: 本稿では,軽量保持ゲートを介して各トークンの創出時の本質的な重要性を学習する手法を提案する。
我々は,特に低メモリ環境において,強い信念と学習可能な検索ベースラインを一貫して上回ることを示す。
一部の設定ではフルキャッシュモデルを超えており、選択的な保持が正規化の一形態として機能することを示している。
- 参考スコア(独自算出の注目度): 26.951325519894525
- License:
- Abstract: Memory and computation remain core bottlenecks in long-horizon LLM inference due to the quadratic cost of self-attention and the ever-growing key-value (KV) cache. Existing strategies for memory-bounded inference, such as quantization, offloading, or heuristic KV eviction, either incur high orchestration costs or rely on unreliable attention-based proxies of importance. We propose TRIM-KV, a novel approach that learns each token's intrinsic importance at creation time via a lightweight retention gate. Each gate predicts a scalar retention score that decays over time, reflecting the long-term utility of the token for a specific layer and head. Tokens with low scores are evicted when the memory budget is exceeded, ensuring that the cache always contains the most critical tokens. TRIM-KV is trained efficiently through distillation from a frozen LLM combined with a capacity loss, requiring only gate fine-tuning and adding negligible inference overhead. Across mathematical reasoning (GSM8K, MATH-500, AIME24), procedural generation (LongProc), conversational long-memory benchmarks (LongMemEval), and long-context understanding (LongBench and SCBench), TRIM-KV consistently outperforms strong eviction and learnable retrieval baselines, especially in low-memory regimes. Remarkably, it even surpasses full-cache models in some settings, showing that selective retention can serve as a form of regularization, suppressing noise from uninformative tokens. Qualitative analyses further reveal that learned retention scores align with human intuition, naturally recovering heuristics such as sink tokens, sliding windows, and gist compression without explicit design. Beyond efficiency, retention scores provide insights into layer- and head-specific roles, suggesting a new path toward LLM interpretability.
- Abstract(参考訳): メモリと計算は、自己アテンションの2次コストと、成長を続けるキーバリュー(KV)キャッシュのために、長期LLM推論のコアボトルネックのままである。
量子化、オフロード、ヒューリスティックなKV消去のような既存のメモリバウンド推論のための戦略は、高いオーケストレーションコストを発生させるか、信頼できない注意ベースの重要なプロキシに依存する。
軽量保持ゲートを介して各トークンの本質的な重要性を学習する新しいアプローチであるTRIM-KVを提案する。
各ゲートは、特定の層と頭に対するトークンの長期的な有用性を反映して、時間の経過とともに崩壊するスカラー保持スコアを予測する。
メモリ予算を超えるとスコアの低いトークンが排除され、キャッシュが常に最も重要なトークンを含むことが保証される。
TRIM-KV は冷凍 LLM からの蒸留とキャパシティロスの併用により効率よく訓練され、ゲートの微調整と無視できない推論オーバーヘッドが加えられる。
Across mathematical reasoning (GSM8K, MATH-500, AIME24), procedural generation (LongProc), conversational long- benchmarks (LongMemEval), long-context understanding (LongBench, SCBench), TRIM-KV は、特に低メモリ状態において、強い消去と学習可能な検索ベースラインを一貫して上回る。
注目すべきは、一部の設定ではフルキャッシュモデルを超え、選択的保持が正規化の形で機能し、非形式的トークンからのノイズを抑制することを示しています。
定性的分析により、学習された保持スコアは人間の直感と一致し、シンクトークン、スライディングウインドウ、ギスト圧縮のような自然に回復することが明らかとなった。
効率性以外にも、保持スコアは層と頭の役割に関する洞察を与え、LCMの解釈可能性への新たな道のりを示唆している。
関連論文リスト
- Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - LLMs Know What to Drop: Self-Attention Guided KV Cache Eviction for Efficient Long-Context Inference [16.83202690345235]
長文推論のための単純かつ効果的なKV消去キャッシュ手法であるSelf-Attention Guided Eviction(SAGE-KV)を提案する。
プリフィル後,KVキャッシュを圧縮するためにトークンとヘッドの両方で1回のトップk選択を行う。
SAGE-KV は静的 KV キャッシュ選択法 StreamLLM よりも精度が向上し,動的 KV キャッシュ選択法 Quest よりも精度が良く,メモリ効率が 4 倍向上する。
論文 参考訳(メタデータ) (2025-03-11T20:45:02Z) - In-context KV-Cache Eviction for LLMs via Attention-Gate [12.732519329131392]
KVキャッシュ技術は、大規模言語モデル(LLM)の推論の標準となっている。
本稿では,Attention-Gateと呼ばれる軽量モジュールをモデルに注入することで,KVキャッシュの動的な消去ポリシーを実現する。
提案手法は複数のシナリオにまたがって実験的に評価され,冗長トークンの有効排除は効率を向上するだけでなく,性能も向上することを示した。
論文 参考訳(メタデータ) (2024-10-15T05:01:19Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。