論文の概要: Moment-KV: Momentum-Based Decode-Time KV Cache Compression for Long Generation
- arxiv url: http://arxiv.org/abs/2605.29873v1
- Date: Thu, 28 May 2026 12:56:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.256094
- Title: Moment-KV: Momentum-Based Decode-Time KV Cache Compression for Long Generation
- Title(参考訳): モーメントKV:モーメントベースデコード時間KVキャッシュの長期圧縮
- Authors: Soumyadeep Jana, Sagar Nishad, Sanasam Ranbir Singh,
- Abstract要約: キーバリュー(KV)キャッシュは、長期的なタスクでLLM(Large Language Models)をデプロイする上で、依然として大きなボトルネックとなっている。
モーメント-KVはモーメント駆動時間アテンションアグリゲーションに基づく復号時間KVキャッシュ圧縮法である。
- 参考スコア(独自算出の注目度): 2.497926557563177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Key-Value (KV) cache remains a major bottleneck for deploying Large Language Models (LLMs) in long-generation tasks. Prior work often applies uniform compression across both prefill and decoding caches, but compressing the prefill cache degrades performance by corrupting critical context. While preserving the prefill cache is essential, decoding-phase compression remains underexplored, with existing methods relying on rigid recency windows or instantaneous attention. Our analysis of attention dynamics reveals strong temporal patterns: critical tokens receive sustained attention over long horizons, while local reasoning involves short-lived bursts. Static heuristics fail to capture this behavior, leading to premature eviction of important tokens or retention of stale ones. We propose Moment-KV, a decoding-time KV cache compression method based on momentum-driven temporal attention aggregation. Our method models token importance as a continuously evolving state, where attention is aggregated with decay, capturing both long-term influence and recent relevance. Experiments show that Moment-KV significantly improves generation fidelity in long-generation tasks (2.3-3.2 %) while maintaining decoding latency.
- Abstract(参考訳): キーバリュー(KV)キャッシュは、長期的なタスクでLLM(Large Language Models)をデプロイする上で、依然として大きなボトルネックとなっている。
以前の作業では、プリフィルキャッシュとデコードキャッシュの両方に一様圧縮を適用することが多いが、プリフィルキャッシュを圧縮することは、クリティカルコンテキストを損なうことによってパフォーマンスを低下させる。
プリフィルキャッシュの保存は不可欠であるが、デコード・フェーズの圧縮は未解決のままであり、既存の手法では厳格な遅延ウィンドウや瞬時に注意を払っている。
臨界トークンは長い地平線上で持続的な注意を受ける一方、局所的な推論は短寿命のバーストを伴う。
静的ヒューリスティックスは、この振る舞いを捉えることができず、重要なトークンの早期の排除や、古いトークンの保持につながる。
モーメント-KVはモーメント駆動時間アテンションアグリゲーションに基づく復号時間KVキャッシュ圧縮法である。
本手法は, 長期的影響と近年の関連性の両方を捉え, 注意を減衰で集約する連続的発展状態として重要度を示唆する。
実験により、Moment-KVはデコードレイテンシを保ちながら、長期タスク(2.3-3.2 %)の生成精度を著しく向上することが示された。
関連論文リスト
- Kwai Summary Attention Technical Report [69.40814939510126]
長文の能力は、次世代の大規模言語モデルの最も重要な方向性の1つになっている。
標準ソフトマックスアテンションは、シーケンスの長さに関して2次時間複雑性を示す。
歴史的文脈を圧縮することでシーケンスモデリングコストを削減する新しいアテンションメカニズムであるKwai Summary Attention (KSA)を提案する。
論文 参考訳(メタデータ) (2026-04-27T12:59:53Z) - RetentiveKV: State-Space Memory for Uncertainty-Aware Multimodal KV Cache Eviction [3.2907393353763243]
既存のKVキャッシュ圧縮手法は、トークンをプルーする「重要度」仮説に依存している。
状態空間モデルに基づく「離散的コンテキストトランケーション」から「連続的メモリ進化」へのKV消去を再構成するエントロピー駆動型KVキャッシュ最適化手法であるRetentiveKVを提案する。
論文 参考訳(メタデータ) (2026-04-14T08:17:53Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - G-KV: Decoding-Time KV Cache Eviction with Global Attention [57.47409249054187]
大規模言語モデル(LLM)は複雑なタスクに優れるが、長いシーケンス長のため、計算とメモリの重大な課題に遭遇する。
KVキャッシュ圧縮は推論の効率を大幅に向上させる効果的な手法として登場した。
本稿では,グローバルスコアリング機構を用いたKVキャッシュ消去手法であるG-KVを提案する。
論文 参考訳(メタデータ) (2025-11-29T14:21:33Z) - Retrospective Sparse Attention for Efficient Long-Context Generation [5.562294018150909]
RetroAttentionは、後続の復号ステップから新たに到着したKVエントリを使用して、過去の注意出力を遡及的に更新する。
これは固定アテンション・アウトプットのパラダイムを破り、事前近似の継続的な修正を可能にする。
実験により、RetroAttention は最先端(SOTA) KV 圧縮法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-08-12T15:11:47Z) - Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。
保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。
我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文 参考訳(メタデータ) (2025-03-02T18:12:50Z) - AttentionPredictor: Temporal Patterns Matter for KV Cache Compression [64.75459635661562]
我々は,KVキャッシュ圧縮とクリティカルトークン識別のための注意パターンを直接予測する,学習に基づく最初の手法であるAttentionPredictorを提案する。
AttentionPredictorは、注意スコアを正確に予測し、無視可能なメモリを消費する統一予測モデルを共有する。
注意情報の大半を保持することで、AttentionPredictorは、キャッシュオフロードシナリオで13$times$KVキャッシュ圧縮と5.6$times$スピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。