論文の概要: LazyEviction: Lagged KV Eviction with Attention Pattern Observation for Efficient Long Reasoning
- arxiv url: http://arxiv.org/abs/2506.15969v1
- Date: Thu, 19 Jun 2025 02:25:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.911759
- Title: LazyEviction: Lagged KV Eviction with Attention Pattern Observation for Efficient Long Reasoning
- Title(参考訳): LazyEviction:Lagged KV Eviction with Attention Pattern Observation for Efficient Long Reasoning
- Authors: Haoyue Zhang, Hualei Zhang, Xiaosong Ma, Jie Zhang, Song Guo,
- Abstract要約: 拡張推論シーケンスでは、キー値(KV)キャッシュサイズが大きくなるため、GPUメモリのオーバーヘッドが大幅に増加する。
既存のKVキャッシュ圧縮手法は、メモリボトルネックを軽減するが、長い推論タスクに苦労する。
そこで我々は,KVメモリの低減と推論性能の維持を目的としたラギングKV消去フレームワークであるLazyEvictionを提案する。
- 参考スコア(独自算出の注目度): 12.618562275265704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) exhibit enhanced reasoning capabilities by employing Chain-of-Thought (CoT). However, the extended reasoning sequences introduce significant GPU memory overhead due to increased key-value (KV) cache size, particularly in tasks requiring long reasoning sequences, such as mathematics and programming. Existing KV cache compression methods mitigate memory bottlenecks but struggle in long reasoning tasks. In this paper, we analyze attention patterns in reasoning tasks and reveal a Token Importance Recurrence phenomenon: a large proportion of tokens receive renewed attention after multiple decoding steps, which is failed to capture by existing works and may lead to unpredictable eviction on such periodically critical tokens. To address this, we propose LazyEviction, a lagged KV eviction framework designed to maintain reasoning performance while reducing KV memory. LazyEviction is an Observation Window-based Lagged Eviction Mechanism retaining latent recurring tokens by performing lagged evictions across decoding steps, which contains two key components: (1) Recurrence Interval Tracking for capturing temporal variations in token importance, and (2) an Maximum Recurrence Interval-Centric Eviction Policy that prioritizes eviction based on tokens' recurrence patterns. Extensive experiments demonstrate that LazyEviction reduces KV cache size by 50% while maintaining comparable accuracy on mathematics reasoning datasets, outperforming state-of-the-art methods. Our findings highlight the importance of preserving recurring tokens, which are critical for maintaining knowledge continuity in multi-step reasoning tasks.
- Abstract(参考訳): 大型言語モデル (LLMs) は、Chain-of-Thought (CoT) を用いて推論能力を向上させる。
しかし、拡張された推論シーケンスは、特に数学やプログラミングのような長い推論シーケンスを必要とするタスクにおいて、キー値(KV)キャッシュサイズが大きくなるため、GPUメモリのオーバーヘッドが大幅に増加する。
既存のKVキャッシュ圧縮手法は、メモリボトルネックを軽減するが、長い推論タスクに苦労する。
本稿では,タスク推論における注意パターンを分析し,トークンの多数が複数の復号処理後に新たな注意を喚起するToken Importance Recurrence現象を明らかにする。
そこで本研究では,KVメモリの削減を図りながら,推論性能を維持するために設計されたラギングKV消去フレームワークであるLazyEvictionを提案する。
ラジエビクション(LazyEviction)は,(1)トークン重要度における時間的変動を捉えるための再帰区間追跡,(2)トークンの繰り返しパターンに基づく退避を優先する最大再帰区間消去ポリシーの2つの重要な要素を含む,復号ステップ間でラジエビクションを行うことにより,遅延繰り返しトークンを保持する観測ウィンドウベースのラジエビクション機構である。
大規模な実験により、LazyEvictionはKVキャッシュサイズを50%削減し、数学推論データセットで同等の精度を維持し、最先端の手法より優れていることが示された。
本研究は,多段階推論タスクにおける知識継続性維持に不可欠である繰り返しトークンの保存の重要性を強調した。
関連論文リスト
- Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - CAOTE: KV Caching through Attention Output Error based Token Eviction [6.1346213444758355]
Token Evictionは、キャッシュからあまり重要でないトークンを排除してボトルネックを軽減するために設計された、広く採用されているポストトレーニング手法である。
本稿では,キャッシュされたトークンのアテンション出力への寄与に基づく簡単な消去基準を提案する。
本稿では,CAOTEと最先端の注目スコアベースの手法を組み合わせることで,下流タスクの精度が常に向上することを示す。
論文 参考訳(メタデータ) (2025-04-18T19:46:54Z) - AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。
注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。
また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。
本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling [52.404072802235234]
本稿では,下流タスクに有用な注目度を隠蔽状態の消去プロセスに統合する新しいモデリング手法であるChunked Instruction-Aware State Eviction(CItruS)を紹介する。
トレーニング不要な手法は,メモリ予算が同じ条件下で,複数の強いベースライン上での長いシーケンス理解および検索タスクにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-17T18:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。