論文の概要: NestedKV: Nested Memory Routing for Long-Context KV Cache Compression
- arxiv url: http://arxiv.org/abs/2605.26678v1
- Date: Tue, 26 May 2026 08:14:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.745408
- Title: NestedKV: Nested Memory Routing for Long-Context KV Cache Compression
- Title(参考訳): NestedKV: 長期KVキャッシュ圧縮のためのNestedメモリルーティング
- Authors: Hong Chen, Xiang Liu, Yubo Gao, Yuxuan Fan, Bo Wang, Yuanlin Chu, Yuanguo Lin, Xuming Hu,
- Abstract要約: NestedKVは、Nested LearningのContinuum Memory SystemにインスパイアされたキーのみのKVキャッシュ圧縮方式である。
マルチタイムスケールのコサイン異常によってトークンをスコアし、その結果のランキングとトレーニング不要な外部学習者を組み合わせる。
- 参考スコア(独自算出の注目度): 35.62789874560166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context language models are limited by the memory footprint of the key-value (KV) cache. Existing training-free KV compression methods usually rank tokens by one importance signal -- attention, recency, layer-wise allocation, or key distinctiveness -- which becomes brittle when useful context is globally distinctive, locally episodic, or immediately relevant. We introduce NestedKV, a key-only KV cache compression method inspired by the Continuum Memory System in Nested Learning. NestedKV maintains global, block-level, and sliding-window key anchors, scores tokens by multi-time-scale cosine anomaly, and combines the resulting rankings with a training-free outer learner using head-adaptive mixing and surprise-gated token routing. The score is paired with adaptive per-head budgets and requires no training or LLM modification. Across RULER (4k--32k), LooGLE, LongBench, LongBench-E, InfiniteBench, and MMLU-Pro on Qwen3 and Llama-3.2 models, NestedKV is strongest when the retained cache is small. On Qwen3-4B, it improves over KeyDiff by up to 19.10 points on RULER and 19.29 on LongBench at $r=0.75$; at $r=0.95$, it retains 37.32 on LongBench versus 17.55 for KeyDiff.
- Abstract(参考訳): 長文言語モデルはキー値(KV)キャッシュのメモリフットプリントによって制限される。
既存のトレーニング不要なKV圧縮手法では、トークンを1つの重要な信号 -- 注意、正確性、レイヤワイドアロケーション、あるいはキーの区別 -- でランク付けすることが多い。
我々はNested Learningにおける連続記憶システムにインスパイアされたキーのみのKVキャッシュ圧縮方式であるNestedKVを紹介する。
NestedKVは、グローバル、ブロックレベル、スライドウインドウキーアンカーを維持し、マルチタイムスケールのコサイン異常によってトークンをスコアし、その結果のランキングと、ヘッドアダプティブミキシングとサプライズゲートトークンルーティングを使用したトレーニングフリーな外部学習者を組み合わせる。
スコアはアダプティブ・パー・ヘッドの予算と組み合わせられ、トレーニングやLLMの変更は不要である。
RULER (4k--32k)、LooGLE、LongBench、LongBench-E、InfiniteBench、およびQwen3およびLlama-3.2のMMLU-Proの他、保持キャッシュが小さい場合にはNestedKVが最強である。
Qwen3-4Bでは、RULERで19.10点、LongBenchで19.29点、RongBenchでr=0.75$、RongBenchでr=0.95$で37.32点、KeyDiffで17.55点まで改善されている。
関連論文リスト
- Make Each Token Count: Towards Improving Long-Context Performance with KV Cache Eviction [65.710271475739]
我々は,各トークンの将来のユーティリティを統一メモリ予算の下で学習する,グローバルな保持に基づくKV消去手法を提案する。
提案手法は,フルキャッシュ推論に適合したり,超えたりしながら,KVメモリを大幅に削減することを示す。
これらの結果から,世界規模で校正されたKV消去は圧縮技術であるだけでなく,長文推論を改善するメカニズムでもあることが示唆された。
論文 参考訳(メタデータ) (2026-05-10T16:47:50Z) - DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - KVzap: Fast, Adaptive, and Faithful KV Cache Pruning [1.3320917259299652]
我々は、KVzipの高速な入力適応近似であるKVzapを導入し、プリフィルとデコードの両方で機能する。
KVzapは、無視できる精度の損失を伴うKVキャッシュ圧縮を2ドル~4ドルで達成し、KVpressのリーダーボード上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-12T08:27:47Z) - Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - LLMs Know What to Drop: Self-Attention Guided KV Cache Eviction for Efficient Long-Context Inference [16.83202690345235]
長文推論のための単純かつ効果的なKV消去キャッシュ手法であるSelf-Attention Guided Eviction(SAGE-KV)を提案する。
プリフィル後,KVキャッシュを圧縮するためにトークンとヘッドの両方で1回のトップk選択を行う。
SAGE-KV は静的 KV キャッシュ選択法 StreamLLM よりも精度が向上し,動的 KV キャッシュ選択法 Quest よりも精度が良く,メモリ効率が 4 倍向上する。
論文 参考訳(メタデータ) (2025-03-11T20:45:02Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression [13.981807478365452]
キーバリューキャッシュサイズを減らすための既存のアプローチは、圧縮戦略を学ぶためのモデルを微調整するか、シーケンス長を減らすためにアテンションスコアを利用するかのいずれかである。
キャッシュされたKVペアに対して、$L$とアテンションスコアとの間に明らかな相関関係が見られ、キー埋め込みの低い$L$がデコード時に高いアテンションスコアをもたらす。
実験の結果,この単純な手法により,言語モデリングやニードル・イン・ア・ヘイスタックタスクでは50%,パスキー検索タスクでは90%,精度を損なうことなく,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T11:35:16Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。