論文の概要: IndexMem: Learned KV-Cache Eviction with Latent Memory for Long-Context LLM Inference
- arxiv url: http://arxiv.org/abs/2605.25475v1
- Date: Mon, 25 May 2026 06:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.35068
- Title: IndexMem: Learned KV-Cache Eviction with Latent Memory for Long-Context LLM Inference
- Title(参考訳): IndexMem: 長期LLM推論のための遅延メモリを用いた学習KVキャッシュ推定
- Authors: Xintong Yang, Hao Gu, Binxing Xu, Lujun Li, Bei Liu, Jiacheng Liu, Qiyuan Zhu, Sirui Han, Yike Guo,
- Abstract要約: 我々は、KVの重要性を予測し、クリティカルトークンのより正確な保持を可能にする学習可能なインデクサを導入する。
本稿では,トークンをコンパクトでオンライン更新された状態に圧縮する軽量潜在メモリモジュールを提案する。
提案手法は,境界KV予算下での高精度な長文推論を可能にする。
- 参考スコア(独自算出の注目度): 33.37463192332294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly expected to operate over long contexts, yet standard softmax attention incurs a KV cache that grows linearly with sequence length, quickly becoming the bottleneck for long context inference. A practical remedy is to evict less important KV entries; however, existing eviction policies are largely heuristic and struggle to capture the rich, input-dependent distribution of token importance. In this work, we introduce a learnable indexer that predicts KV importance, enabling more accurate retention of critical tokens. Meanwhile, naively evicting tokens permanently discards their information, leading to irreversible forgetting and degraded retrieval over long ranges. To address this, we propose a lightweight latent memory module that compresses evicted tokens into a compact, online-updated state and provides residual readouts to compensate for the attention contributions lost through KV eviction. Collectively, our method enables accurate long-context inference under a bounded KV budget, delivering consistent improvements on RULER (4K/16K) across Qwen, Mistral, and Llama models (up to 25 points under aggressive eviction), markedly more stable Needle-in-a-Haystack retrieval, and superior LongBench scores and compression curves compared to existing eviction policies.
- Abstract(参考訳): LLM(Large Language Models)は、長いコンテキストで運用されることがますます期待されているが、標準的なソフトマックスアテンションは、シーケンス長とともに線形に成長するKVキャッシュを発生させ、すぐに長いコンテキスト推論のボトルネックとなる。
現実的な治療法は、重要でないKVエントリを排除することであるが、既存の排除ポリシーは概ねヒューリスティックであり、トークンの重要性の豊かで入力に依存した分布を捉えるのに苦労している。
本研究では,KVの重要性を予測し,重要なトークンのより正確な保持を可能にする学習可能なインデクサを提案する。
一方、トークンを永久に取り除くことは、その情報を永久に破棄し、長い範囲にわたって忘れられ、劣化した検索につながる。
そこで本稿では,トークンを圧縮した軽量の潜在メモリモジュールを提案し,KV消去によって失われる注意貢献を補うための残余の読み出しを提供する。
提案手法は,Qwen,Mistral,Llamaの各モデルに対するRULER(4K/16K)の整合性向上を実現し,より安定なNeedle-in-a-Haystack検索,LongBenchスコアと圧縮曲線を実現した。
関連論文リスト
- Make Each Token Count: Towards Improving Long-Context Performance with KV Cache Eviction [65.710271475739]
我々は,各トークンの将来のユーティリティを統一メモリ予算の下で学習する,グローバルな保持に基づくKV消去手法を提案する。
提案手法は,フルキャッシュ推論に適合したり,超えたりしながら,KVメモリを大幅に削減することを示す。
これらの結果から,世界規模で校正されたKV消去は圧縮技術であるだけでなく,長文推論を改善するメカニズムでもあることが示唆された。
論文 参考訳(メタデータ) (2026-05-10T16:47:50Z) - Kwai Summary Attention Technical Report [69.40814939510126]
長文の能力は、次世代の大規模言語モデルの最も重要な方向性の1つになっている。
標準ソフトマックスアテンションは、シーケンスの長さに関して2次時間複雑性を示す。
歴史的文脈を圧縮することでシーケンスモデリングコストを削減する新しいアテンションメカニズムであるKwai Summary Attention (KSA)を提案する。
論文 参考訳(メタデータ) (2026-04-27T12:59:53Z) - ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution [84.41751286055909]
我々は、長文世代におけるどのKVペアを退避させるかを予測する訓練ベースのKVキャッシュ消去フレームワークを開発した。
我々は、マルコフ決定過程としてキャッシュ消去を定式化し、GRPOアルゴリズムを適用し、低エントロピートークンにおける言語モデリング損失の増加を緩和する。
論文 参考訳(メタデータ) (2026-02-03T07:16:51Z) - G-KV: Decoding-Time KV Cache Eviction with Global Attention [57.47409249054187]
大規模言語モデル(LLM)は複雑なタスクに優れるが、長いシーケンス長のため、計算とメモリの重大な課題に遭遇する。
KVキャッシュ圧縮は推論の効率を大幅に向上させる効果的な手法として登場した。
本稿では,グローバルスコアリング機構を用いたKVキャッシュ消去手法であるG-KVを提案する。
論文 参考訳(メタデータ) (2025-11-29T14:21:33Z) - Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - Cache Me If You Can: How Many KVs Do You Need for Effective Long-Context LMs? [79.58770714228983]
言語モデルは、書籍要約のようなタスクに対して、ますます長いコンテキストを扱う。
これによりキーバリュー(KV)キャッシュのメモリコストが増大する。
以前の多くの研究でKVをメモリから外す方法が提案されているが、そのアプローチは好ましい設定に適合している。
KVフットプリント*は、記憶中のKVエントリの量と寿命の両方を考慮し、統一された計量として提案する。
論文 参考訳(メタデータ) (2025-06-20T16:21:12Z) - LazyEviction: Lagged KV Eviction with Attention Pattern Observation for Efficient Long Reasoning [21.761205124793175]
拡張推論シーケンスでは、キー値(KV)キャッシュの増加によるGPUメモリオーバーヘッドが大幅に増加する。
既存のKVキャッシュ圧縮手法は、メモリボトルネックを軽減するが、長い推論タスクに苦労する。
トークンの繰り返しパターンに基づいた優先順位付けによる遅延繰り返しトークンを保持する観測窓ベースのラッチ消去フレームワークであるLazyEvictionを提案する。
論文 参考訳(メタデータ) (2025-06-19T02:25:04Z) - Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。
保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。
我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文 参考訳(メタデータ) (2025-03-02T18:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。