Fugu-MT 論文翻訳(概要): LazyEviction: Lagged KV Eviction with Attention Pattern Observation for Efficient Long Reasoning

論文の概要: LazyEviction: Lagged KV Eviction with Attention Pattern Observation for Efficient Long Reasoning

arxiv url: http://arxiv.org/abs/2506.15969v1
Date: Thu, 19 Jun 2025 02:25:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 19:00:04.911759
Title: LazyEviction: Lagged KV Eviction with Attention Pattern Observation for Efficient Long Reasoning
Title（参考訳）: LazyEviction:Lagged KV Eviction with Attention Pattern Observation for Efficient Long Reasoning
Authors: Haoyue Zhang, Hualei Zhang, Xiaosong Ma, Jie Zhang, Song Guo,
Abstract要約: 拡張推論シーケンスでは、キー値(KV)キャッシュサイズが大きくなるため、GPUメモリのオーバーヘッドが大幅に増加する。既存のKVキャッシュ圧縮手法は、メモリボトルネックを軽減するが、長い推論タスクに苦労する。そこで我々は,KVメモリの低減と推論性能の維持を目的としたラギングKV消去フレームワークであるLazyEvictionを提案する。
参考スコア（独自算出の注目度）: 12.618562275265704
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) exhibit enhanced reasoning capabilities by employing Chain-of-Thought (CoT). However, the extended reasoning sequences introduce significant GPU memory overhead due to increased key-value (KV) cache size, particularly in tasks requiring long reasoning sequences, such as mathematics and programming. Existing KV cache compression methods mitigate memory bottlenecks but struggle in long reasoning tasks. In this paper, we analyze attention patterns in reasoning tasks and reveal a Token Importance Recurrence phenomenon: a large proportion of tokens receive renewed attention after multiple decoding steps, which is failed to capture by existing works and may lead to unpredictable eviction on such periodically critical tokens. To address this, we propose LazyEviction, a lagged KV eviction framework designed to maintain reasoning performance while reducing KV memory. LazyEviction is an Observation Window-based Lagged Eviction Mechanism retaining latent recurring tokens by performing lagged evictions across decoding steps, which contains two key components: (1) Recurrence Interval Tracking for capturing temporal variations in token importance, and (2) an Maximum Recurrence Interval-Centric Eviction Policy that prioritizes eviction based on tokens' recurrence patterns. Extensive experiments demonstrate that LazyEviction reduces KV cache size by 50% while maintaining comparable accuracy on mathematics reasoning datasets, outperforming state-of-the-art methods. Our findings highlight the importance of preserving recurring tokens, which are critical for maintaining knowledge continuity in multi-step reasoning tasks.
Abstract（参考訳）: 大型言語モデル (LLMs) は、Chain-of-Thought (CoT) を用いて推論能力を向上させる。しかし、拡張された推論シーケンスは、特に数学やプログラミングのような長い推論シーケンスを必要とするタスクにおいて、キー値(KV)キャッシュサイズが大きくなるため、GPUメモリのオーバーヘッドが大幅に増加する。既存のKVキャッシュ圧縮手法は、メモリボトルネックを軽減するが、長い推論タスクに苦労する。本稿では,タスク推論における注意パターンを分析し,トークンの多数が複数の復号処理後に新たな注意を喚起するToken Importance Recurrence現象を明らかにする。そこで本研究では,KVメモリの削減を図りながら,推論性能を維持するために設計されたラギングKV消去フレームワークであるLazyEvictionを提案する。ラジエビクション(LazyEviction)は,(1)トークン重要度における時間的変動を捉えるための再帰区間追跡,(2)トークンの繰り返しパターンに基づく退避を優先する最大再帰区間消去ポリシーの2つの重要な要素を含む,復号ステップ間でラジエビクションを行うことにより,遅延繰り返しトークンを保持する観測ウィンドウベースのラジエビクション機構である。大規模な実験により、LazyEvictionはKVキャッシュサイズを50%削減し、数学推論データセットで同等の精度を維持し、最先端の手法より優れていることが示された。本研究は,多段階推論タスクにおける知識継続性維持に不可欠である繰り返しトークンの保存の重要性を強調した。

関連論文リスト

Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。 Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文参考訳（メタデータ） (2025-08-04T16:14:03Z)
CaliDrop: KV Cache Compression with Calibration [44.722738059962296]
大規模言語モデル(LLM)は、世代間、かなりの計算資源を必要とする。このボトルネックを軽減するため、KVキャッシュ圧縮技術が提案されている。本稿ではトークン排除戦略の強化に焦点をあてる。
論文参考訳（メタデータ） (2025-07-26T10:34:53Z)
Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。 LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文参考訳（メタデータ） (2025-06-16T03:00:40Z)
ThinkLess: A Training-Free Inference-Efficient Method for Reducing Reasoning Redundancy [8.962703809086628]
ThinkLessは推論効率のよいフレームワークで、推論生成を早期に終了し、モデルを変更することなく出力品質を維持する。我々はThinkLessが完全長のChain-of-Thought(CoT)デコードに匹敵する精度を実現し,デコード時間とメモリ消費を大幅に削減することを示した。
論文参考訳（メタデータ） (2025-05-21T15:58:16Z)
Log-Augmented Generation: Scaling Test-Time Reasoning with Reusable Computation [80.69067017594709]
大規模言語モデル(LLM)とそのエージェントモデルは、以前のタスクからの推論を維持するのに苦労する。本稿では,従来の計算を直接再利用し,テスト時に過去のログから推論する新しいフレームワークであるLAGを提案する。本手法は,ログを使用しない標準的なエージェントシステムよりも優れている。
論文参考訳（メタデータ） (2025-05-20T14:14:38Z)
ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [75.1101108949743]
大規模推論モデル(LRM)は、Chain-of-Thought (CoT)プロンプトを介して複雑な推論タスクを強く行う。 LRMは冗長なコンテンツによる冗長なアウトプット、計算オーバーヘッドの増加、ユーザエクスペリエンスの低下に悩まされることが多い。本稿では,推論中のモデルの信頼性を高めることによって推論チェーンを簡素化するフレームワークであるConCISEを提案する。
論文参考訳（メタデータ） (2025-05-08T01:40:40Z)
CAOTE: KV Caching through Attention Output Error based Token Eviction [6.1346213444758355]
Token Evictionは、キャッシュからあまり重要でないトークンを排除してボトルネックを軽減するために設計された、広く採用されているポストトレーニング手法である。本稿では,キャッシュされたトークンのアテンション出力への寄与に基づく簡単な消去基準を提案する。本稿では,CAOTEと最先端の注目スコアベースの手法を組み合わせることで,下流タスクの精度が常に向上することを示す。
論文参考訳（メタデータ） (2025-04-18T19:46:54Z)
AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-06T13:41:46Z)
Compressing KV Cache for Long-Context LLM Inference with Inter-Layer Attention Similarity [24.118503938098307]
textscPoDはトークンの重要度に応じてメモリを割り当てる。 textscPoDは、パフォーマンスを損なうことなく、KVキャッシュメモリ使用量を最大35%削減する。
論文参考訳（メタデータ） (2024-12-03T08:29:27Z)
RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文参考訳（メタデータ） (2024-11-08T18:57:07Z)
CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling [52.404072802235234]
本稿では,下流タスクに有用な注目度を隠蔽状態の消去プロセスに統合する新しいモデリング手法であるChunked Instruction-Aware State Eviction(CItruS)を紹介する。トレーニング不要な手法は,メモリ予算が同じ条件下で,複数の強いベースライン上での長いシーケンス理解および検索タスクにおいて,優れた性能を示す。
論文参考訳（メタデータ） (2024-06-17T18:34:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。