論文の概要: CASK: Core-Aware Selective KV Compression for Reasoning Traces
- arxiv url: http://arxiv.org/abs/2604.10900v1
- Date: Mon, 13 Apr 2026 02:03:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.273576
- Title: CASK: Core-Aware Selective KV Compression for Reasoning Traces
- Title(参考訳): CASK:Core-Aware Selective KV Compression for Reasoning Traces
- Authors: Buseong Kim, Heejun Gwon,
- Abstract要約: CASKはデコード時の推論トレースを保護されたコアに分割し、応答の生成と中間状態、高い冗長性でマージ可能なスクラッチを固定する。
H100推論ゲートでは、CASK は AIME24 と AIME25 の整合予算において TriAttention よりも完全 KV 継続率が高く、cask@384 > triattention@512 交差が繰り返されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In large language models performing long-form reasoning, the KV cache grows rapidly with decode length, creating bottlenecks in memory and inference stability. Existing reasoning-oriented KV compression has mostly followed an eviction-centered view: estimate token importance more accurately, then discard lower-ranked entries. Our analysis suggests that scorer refinement alone often fails to substantially reorganize the actual keep-set and may therefore not be the main lever for preserving reasoning behavior. We instead frame reasoning KV compression as a behavior-preserving structured consolidation problem. CASK partitions the decode-time reasoning trace into a protected core that anchors answer formation and intermediate state, and mergeable scratch with high redundancy. The core is preserved, while selective consolidation is applied only to the scratch. To address prompt-heavy regimes where the prefix can exhaust the budget before decode-stage compression becomes active, CASK further uses a two-stage design: prefix eviction followed by decode-stage consolidation. On the H100 reasoning gate, CASK shows higher full-KV continuation fidelity than TriAttention at matched budgets on both AIME24 and AIME25, with recurring cask@384 > triattention@512 crossings. In prompt-heavy replay, multi_news and vcsum act as decode-active witnesses, while qmsum and gov_report expose the prefix_budget_exhausted boundary. The overall evidence supports a simple conclusion: effective reasoning KV compression depends less on more elaborate scorer engineering than on combining core preservation with selective scratch consolidation to lower the usable budget frontier.
- Abstract(参考訳): 長期の推論を行う大規模言語モデルでは、KVキャッシュはデコード長とともに急速に成長し、メモリと推論安定性のボトルネックが生じる。
既存の推論指向のKV圧縮は、主にエビクション中心の視点に従っている: 推定トークンの重要性をより正確に評価し、低ランクのエントリを捨てる。
分析の結果,スコアラーのリファインメントだけでは実際のキープセットの大幅な再構成に失敗することが多く,したがって推論行動を保存するためのメインレバーにはならない可能性が示唆された。
代わりに,KV圧縮を挙動保存構造整合問題として用いた。
CASKはデコード時の推論トレースを保護されたコアに分割し、応答の生成と中間状態、高い冗長性でマージ可能なスクラッチを固定する。
コアは保存され、選択的固化はスクラッチにのみ適用される。
プレフィックスがデコードステージ圧縮がアクティブになる前に予算を浪費できるプロンプトヘビーな状況に対処するために、CASKはさらに2段階の設計を使用する。
H100推論ゲートでは、CASKはAIME24とAIME25の双方で一致した予算でTriAttentionよりも高いフルKV継続率を示し、cask@384 > triattention@512交差が繰り返されている。
prompt-heavyリプレイでは、multi_newsとvcsumがデコードアクティブな証人として機能し、qmsumとgov_reportはプレフィックス_budget_exhausted境界を公開する。
KV圧縮の効果的な推論は、コア保存と選択的スクラッチ整合を組み合わせて使用可能な予算フロンティアを下げることよりも、より精巧なスコアラー工学に依存しない。
関連論文リスト
- DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution [84.41751286055909]
我々は、長文世代におけるどのKVペアを退避させるかを予測する訓練ベースのKVキャッシュ消去フレームワークを開発した。
我々は、マルコフ決定過程としてキャッシュ消去を定式化し、GRPOアルゴリズムを適用し、低エントロピートークンにおける言語モデリング損失の増加を緩和する。
論文 参考訳(メタデータ) (2026-02-03T07:16:51Z) - Crystal-KV: Efficient KV Cache Management for Chain-of-Thought LLMs via Answer-First Principle [22.39292106468653]
CoT(Chain-of-Thought)推論は複雑なタスクの精度を大幅に向上させる。
CoTは最終的な答えを強調し、従来のKV圧縮戦略を非効率にする。
CoT推論に適した効率的なKVキャッシュ管理フレームワークであるCrystal-KVを提案する。
論文 参考訳(メタデータ) (2026-01-05T07:42:58Z) - SkipKV: Selective Skipping of KV Generation and Storage for Efficient Inference with Large Reasoning Models [25.509962883211]
大きな推論モデル(LRM)は、チェーン・オブ・ソート(CoT)推論プロセスで線形に成長するため、重要なキー値(KV)キャッシュのオーバーヘッドがかかることが多い。
粗い文レベルのシーケンスを除去するKV圧縮手法である textbfSkipKV を提案する。
論文 参考訳(メタデータ) (2025-12-08T19:32:06Z) - G-KV: Decoding-Time KV Cache Eviction with Global Attention [57.47409249054187]
大規模言語モデル(LLM)は複雑なタスクに優れるが、長いシーケンス長のため、計算とメモリの重大な課題に遭遇する。
KVキャッシュ圧縮は推論の効率を大幅に向上させる効果的な手法として登場した。
本稿では,グローバルスコアリング機構を用いたKVキャッシュ消去手法であるG-KVを提案する。
論文 参考訳(メタデータ) (2025-11-29T14:21:33Z) - Which Heads Matter for Reasoning? RL-Guided KV Cache Compression [15.865990296257413]
推論可能な大きな言語モデルは、拡張されたチェーン・オブ・ソート・ジェネレーションを通じて複雑な推論の振る舞いを示す。
既存のKVキャッシュ圧縮手法は推論モデルでは性能が低い。
本稿では,新しい推論クリティカルな頭部識別フレームワークRLKVを提案する。
論文 参考訳(メタデータ) (2025-10-09T17:50:00Z) - OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。
OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。
オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文 参考訳(メタデータ) (2025-09-25T21:42:27Z) - LazyEviction: Lagged KV Eviction with Attention Pattern Observation for Efficient Long Reasoning [21.761205124793175]
拡張推論シーケンスでは、キー値(KV)キャッシュの増加によるGPUメモリオーバーヘッドが大幅に増加する。
既存のKVキャッシュ圧縮手法は、メモリボトルネックを軽減するが、長い推論タスクに苦労する。
トークンの繰り返しパターンに基づいた優先順位付けによる遅延繰り返しトークンを保持する観測窓ベースのラッチ消去フレームワークであるLazyEvictionを提案する。
論文 参考訳(メタデータ) (2025-06-19T02:25:04Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - FlowKV: Enhancing Multi-Turn Conversational Coherence in LLMs via Isolated Key-Value Cache Management [48.904743679691414]
FlowKVはKVキャッシュ管理のための新しいマルチターン分離機構である。
蓄積された圧縮KVキャッシュを過去のターンから保存する。
古い文脈の再圧縮を防ぎ、破滅的な忘れを和らげる。
論文 参考訳(メタデータ) (2025-05-21T10:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。