論文の概要: MomentKV: Closing the Directional Gap in KV Cache Eviction for Long-Context Inference
- arxiv url: http://arxiv.org/abs/2606.01563v1
- Date: Mon, 01 Jun 2026 02:08:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.867387
- Title: MomentKV: Closing the Directional Gap in KV Cache Eviction for Long-Context Inference
- Title(参考訳): モーメントKV:長期推論のためのKVキャッシュの方向ギャップを閉鎖する
- Authors: Yu Li, Binxu Li, Tian Lan,
- Abstract要約: Transformerベースの言語モデルにおける自動回帰デコーディングは、KVキャッシュに依存している。
KVキャッシュ消去は、キーと値のペアの固定サイズのサブセットを保持し、残りを破棄することでこの問題に対処する。
本稿では, 除去トークン集合上のコンパクトで小型なモーメント統計量を維持するMomentKVを提案する。
- 参考スコア(独自算出の注目度): 12.316173390280609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive decoding in Transformer-based language models relies on the KV cache, whose memory footprint grows linearly with sequence length and becomes the primary bottleneck for long-context inference. KV cache eviction addresses this by retaining a fixed-size subset of key-value pairs and discarding the rest. We identify that a primary source of output degradation is not the residual attention mass on evicted tokens, which existing methods already minimize, but a directional mismatch between the retained and evicted token sets. Specifically, the evicted tokens in practice are often near-orthogonal to the retained ones. Thus, even a small evicted mass could have an oversized impact on the resulting direction distribution and amplify into substantial output error. This reveals a fundamental limit in existing strategies. To address this, we propose MomentKV, which maintains compact, small-size moment statistics over the evicted token set, including a count, key mean, value mean, and value-key covariance. During eviction, the moment statistics is leveraged to identify tokens already well aligned with and captured by the accumulated summary, keeping the evicted set geometrically regular. During inference, they yield a closed-form first-order approximation of the evicted attention output, forming a mutually reinforcing loop between selective eviction and accurate correction. On LongBench and RULER with LLaMA-3.1-8B-Instruct and Qwen3-4B-Instruct, MomentKV outperforms all baselines at every cache budget, with the largest gains under aggressive compression.
- Abstract(参考訳): Transformerベースの言語モデルにおける自己回帰デコーディングはKVキャッシュに依存しており、そのメモリフットプリントはシーケンス長とともに線形に増加し、長いコンテキスト推論の主要なボトルネックとなる。
KVキャッシュ消去は、キーと値のペアの固定サイズのサブセットを保持し、残りを破棄することでこの問題に対処する。
出力劣化の主な原因は、既存の手法で既に最小化されているトークンの残光量ではなく、保持されたトークンセットと削除されたトークンセットの方向ミスマッチである。
具体的には、実際には取り除かれたトークンは、保持されているトークンとほぼ直交していることが多い。
したがって、小さな放出質量でさえ、結果として生じる方向分布に過大な影響を及ぼし、実質的な出力誤差を増幅することができる。
これは、既存の戦略の根本的な限界を明らかにします。
そこで本稿では,数列,キー平均,値平均,値-キー共分散などのトークン集合に対して,コンパクトで小さなモーメント統計量を維持するMomentKVを提案する。
消去の間、モーメント統計を利用して、蓄積された要約によって既によく一致し、キャプチャされたトークンを識別し、取り除かれた集合を幾何学的に規則的に保持する。
推測中、それらは排除された注意出力の閉形式一階近似を生成し、選択的消去と正確な補正の相互強化ループを形成する。
LLaMA-3.1-8B-インストラクタとQwen3-4B-インストラクタを備えたLongBenchとRULERでは、MomentKVは全てのキャッシュ予算において全てのベースラインを上回り、アグレッシブな圧縮で最大のゲインを得る。
関連論文リスト
- GRKV: Global Regression for Training-Free KV Cache Compression in Long-Context LLMs [97.36238579001544]
コンテキスト長が拡張された大規模言語モデル(LLM)は、キー値(KV)キャッシュに依存して、以前のトークンに対する注意をサポートする。
KVキャッシュを維持することは、KVキャッシュ圧縮メソッドを動機付け、かなりのメモリオーバーヘッドを引き起こす。
GRKVは,圧縮キャッシュとフルキャッシュのアテンション出力の差を直接最小化する,トレーニング不要なKV-cacheマージ手法である。
論文 参考訳(メタデータ) (2026-05-29T10:16:30Z) - IndexMem: Learned KV-Cache Eviction with Latent Memory for Long-Context LLM Inference [33.37463192332294]
我々は、KVの重要性を予測し、クリティカルトークンのより正確な保持を可能にする学習可能なインデクサを導入する。
本稿では,トークンをコンパクトでオンライン更新された状態に圧縮する軽量潜在メモリモジュールを提案する。
提案手法は,境界KV予算下での高精度な長文推論を可能にする。
論文 参考訳(メタデータ) (2026-05-25T06:29:43Z) - Make Each Token Count: Towards Improving Long-Context Performance with KV Cache Eviction [65.710271475739]
我々は,各トークンの将来のユーティリティを統一メモリ予算の下で学習する,グローバルな保持に基づくKV消去手法を提案する。
提案手法は,フルキャッシュ推論に適合したり,超えたりしながら,KVメモリを大幅に削減することを示す。
これらの結果から,世界規模で校正されたKV消去は圧縮技術であるだけでなく,長文推論を改善するメカニズムでもあることが示唆された。
論文 参考訳(メタデータ) (2026-05-10T16:47:50Z) - Reformulating KV Cache Eviction Problem for Long-Context LLM Inference [2.0590127484132523]
大きな言語モデル(LLM)は、長いコンテキスト推論をサポートするが、キーバリュー(KV)キャッシュの増大により、メモリとランタイムのオーバーヘッドが大幅に増大する。
既存のKVキャッシュ消去法は、値表現、出力プロジェクション、ヘッド間相互作用の影響を無視し、局所的な注意重みに依存している。
注意マップと投影された値状態の間の乗法的相互作用を明示的にモデル化する新しい消去戦略であるLaProxを紹介する。
論文 参考訳(メタデータ) (2026-05-08T04:37:22Z) - ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution [84.41751286055909]
我々は、長文世代におけるどのKVペアを退避させるかを予測する訓練ベースのKVキャッシュ消去フレームワークを開発した。
我々は、マルコフ決定過程としてキャッシュ消去を定式化し、GRPOアルゴリズムを適用し、低エントロピートークンにおける言語モデリング損失の増加を緩和する。
論文 参考訳(メタデータ) (2026-02-03T07:16:51Z) - FASA: Frequency-aware Sparse Attention [56.26881872333624]
本稿では,トークンの重要度を動的に予測することで,クエリ対応のトークン消去を実現する新しいフレームワークであるFASAを提案する。
我々の重要な発見は、小さな「支配的」FCの特定可能なサブセットが、常に注目の頭文字と高い文脈の一致を示すことである。
長いコンテキストのタスクのスペクトル全体にわたって、FASAは全てのトークン放出ベースラインを一貫して上回り、ニアオラクル精度を達成する。
論文 参考訳(メタデータ) (2026-02-03T06:09:06Z) - Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - CaliDrop: KV Cache Compression with Calibration [44.722738059962296]
大規模言語モデル(LLM)は、世代間、かなりの計算資源を必要とする。
このボトルネックを軽減するため、KVキャッシュ圧縮技術が提案されている。
本稿ではトークン排除戦略の強化に焦点をあてる。
論文 参考訳(メタデータ) (2025-07-26T10:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。