論文の概要: SkipKV: Selective Skipping of KV Generation and Storage for Efficient Inference with Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2512.07993v1
- Date: Mon, 08 Dec 2025 19:32:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.705781
- Title: SkipKV: Selective Skipping of KV Generation and Storage for Efficient Inference with Large Reasoning Models
- Title(参考訳): SkipKV:大共振モデルを用いた効率的な推論のためのKV生成とストレージの選択的スキッピング
- Authors: Jiayi Tian, Seyedarmin Azizi, Yequan Zhao, Erfan Baghaei Potraghloo, Sean McPherson, Sharath Nittur Sridhar, Zhengyang Wang, Zheng Zhang, Massoud Pedram, Souvik Kundu,
- Abstract要約: 大きな推論モデル(LRM)は、チェーン・オブ・ソート(CoT)推論プロセスで線形に成長するため、重要なキー値(KV)キャッシュのオーバーヘッドがかかることが多い。
粗い文レベルのシーケンスを除去するKV圧縮手法である textbfSkipKV を提案する。
- 参考スコア(独自算出の注目度): 25.509962883211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) often cost significant key-value (KV) cache overhead, due to their linear growth with the verbose chain-of-thought (CoT) reasoning process. This costs both memory and throughput bottleneck limiting their efficient deployment. Towards reducing KV cache size during inference, we first investigate the effectiveness of existing KV cache eviction methods for CoT reasoning. Interestingly, we find that due to unstable token-wise scoring and the reduced effective KV budget caused by padding tokens, state-of-the-art (SoTA) eviction methods fail to maintain accuracy in the multi-batch setting. Additionally, these methods often generate longer sequences than the original model, as semantic-unaware token-wise eviction leads to repeated revalidation during reasoning. To address these issues, we present \textbf{SkipKV}, a \textbf{\textit{training-free}} KV compression method for selective \textit{eviction} and \textit{generation} operating at a coarse-grained sentence-level sequence removal for efficient CoT reasoning. In specific, it introduces a \textit{sentence-scoring metric} to identify and remove highly similar sentences while maintaining semantic coherence. To suppress redundant generation, SkipKV dynamically adjusts a steering vector to update the hidden activation states during inference enforcing the LRM to generate concise response. Extensive evaluations on multiple reasoning benchmarks demonstrate the effectiveness of SkipKV in maintaining up to $\mathbf{26.7}\%$ improved accuracy compared to the alternatives, at a similar compression budget. Additionally, compared to SoTA, SkipKV yields up to $\mathbf{1.6}\times$ fewer generation length while improving throughput up to $\mathbf{1.7}\times$.
- Abstract(参考訳): 大きな推論モデル(LRM)は、冗長チェーン・オブ・シークレット(CoT)推論プロセスによる線形成長のため、重要なキー値(KV)キャッシュオーバーヘッドを伴わないことが多い。
これにより、メモリとスループットのボトルネックによって、効率的なデプロイメントが制限される。
推論中のKVキャッシュサイズを削減するために,CoT推論における既存のKVキャッシュ消去手法の有効性について検討する。
興味深いことに、不安定なトークン単位のスコアリングと、パラディングトークンによる有効KV予算の削減により、最先端(SoTA)消去法はマルチバッチ設定における精度の維持に失敗している。
さらに、これらの手法は、意味不明なトークン単位の排除によって推論中に繰り返し再検証されるため、元のモデルよりも長いシーケンスを生成することが多い。
これらの問題に対処するため,大まかな文レベルのシーケンスを除去して効率の良いCoT推論を行うために,選択的な \textit{eviction} に対して \textbf{SkipKV}, \textbf{\textit{training-free}} KV 圧縮法を提案する。
具体的には、意味的コヒーレンスを維持しながら、非常に類似した文を識別し、削除する「textit{sentence-scoring metric」を導入する。
冗長発生を抑制するため、SkipKVはステアリングベクトルを動的に調整し、LEMを強制する推論中に隠れた活性化状態を更新し、簡潔な応答を生成する。
複数の推論ベンチマークに対する広範囲な評価は、SkipKVが同等の圧縮予算で、代替品と比較して最大$\mathbf{26.7}\%の精度を維持したことを示す。
さらに、SoTAと比較して、SkipKVは最大$\mathbf{1.6}\times$生成長を減らし、スループットを$\mathbf{1.7}\times$に改善する。
関連論文リスト
- G-KV: Decoding-Time KV Cache Eviction with Global Attention [57.47409249054187]
大規模言語モデル(LLM)は複雑なタスクに優れるが、長いシーケンス長のため、計算とメモリの重大な課題に遭遇する。
KVキャッシュ圧縮は推論の効率を大幅に向上させる効果的な手法として登場した。
本稿では,グローバルスコアリング機構を用いたKVキャッシュ消去手法であるG-KVを提案する。
論文 参考訳(メタデータ) (2025-11-29T14:21:33Z) - Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - LazyEviction: Lagged KV Eviction with Attention Pattern Observation for Efficient Long Reasoning [21.761205124793175]
拡張推論シーケンスでは、キー値(KV)キャッシュの増加によるGPUメモリオーバーヘッドが大幅に増加する。
既存のKVキャッシュ圧縮手法は、メモリボトルネックを軽減するが、長い推論タスクに苦労する。
トークンの繰り返しパターンに基づいた優先順位付けによる遅延繰り返しトークンを保持する観測窓ベースのラッチ消去フレームワークであるLazyEvictionを提案する。
論文 参考訳(メタデータ) (2025-06-19T02:25:04Z) - SentenceKV: Efficient LLM Inference via Sentence-Level Semantic KV Caching [5.545249777535219]
SentenceKVは、セマンティックコヒーレンスを保持しながら推論効率を向上させるために設計された、新しいKVキャッシュアプローチである。
本研究では,SentenceKVがモデル精度を損なうことなく,効率とメモリ使用量の両方において最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-01T17:08:57Z) - Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。
保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。
我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文 参考訳(メタデータ) (2025-03-02T18:12:50Z) - Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。
Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文 参考訳(メタデータ) (2025-02-19T08:50:44Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。