論文の概要: When Hidden States Drift: Can KV Caches Rescue Long-Range Speculative Decoding?
- arxiv url: http://arxiv.org/abs/2604.26412v1
- Date: Wed, 29 Apr 2026 08:25:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.310869
- Title: When Hidden States Drift: Can KV Caches Rescue Long-Range Speculative Decoding?
- Title(参考訳): 隠れ状態のドリフト:KVキャッシュは長距離投機的デコーディングを救えるか?
- Authors: Tianyu Liu, Yuhao Shen, Xinyi Hu, Baolin Zhang, Hengxin Zhang, Jun Dai, Jun Zhang, Shuang Ge, Lei Chen, Yue Li, MingCheng Wan,
- Abstract要約: 投機的復号化はLLM推論を加速させるが、SOTAの隠れ状態に基づく起草者は長距離減衰に悩まされる。
我々はコンテキスト情報保存の観点から長距離減衰を再考する。
KVShotは3つの再利用パラダイムを比較する診断フレームワークである。
- 参考スコア(独自算出の注目度): 19.77569541429818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding accelerates LLM inference, but SOTA hidden-state-based drafters suffer from long-range decay: draft accuracy degrades as the speculative step increases. Existing work attributes this decay to train-inference mismatch and proposes test-time training (TTT) as a remedy, yet we observe that long-range decay persists even in TTT-trained drafters. We revisit long-range decay from the perspective of context information preservation. In hidden-state reuse, we argue the target hidden state acts as a biased context compression: it aggregates historical token information according to the attention query at the current position, yielding a compact representation optimized for immediate next-token prediction. This compression can suppress information less relevant to the current query but important for later speculative steps. In contrast, the target model's KV cache serves as an explicit context, retaining the complete set of token-wise KV representations. We therefore posit the KV-Reuse Hypothesis: allowing the draft model to reuse the target KV cache can provide richer signals for long-horizon drafting. To test this hypothesis, we introduce KVShot, a diagnostic framework that compares three reuse paradigms: hidden-only, KV-only, and hybrid. Extensive evaluations on Qwen3-8B show that KV-Reuse improves long-range acceptance, although end-to-end speedups remain marginal under current training pipelines. Our analysis identifies two key structural bottlenecks: shallow drafters struggle to estimate target queries accurately, and draft-side KV projections receive sparse gradient signals. These findings suggest that realizing the full potential of KV-aware decoding requires moving beyond TTT toward block-wise training paradigms. By exposing these bottlenecks, KVShot provides a foundational diagnostic testbed and a clear roadmap for designing next-generation inference architectures.
- Abstract(参考訳): 投機的復号化はLLM推論を加速させるが、SOTAの隠れ状態に基づく起草者は長距離の減衰に悩まされる。
既存の作業は、この崩壊を列車干渉ミスマッチに起因し、テストタイムトレーニング(TTT)を治療として提案する。
我々はコンテキスト情報保存の観点から長距離減衰を再考する。
隠れ状態の再利用において、対象の隠れ状態はバイアスのあるコンテキスト圧縮として機能し、現在位置における注目クエリに従って過去のトークン情報を集約し、即時次トーケン予測に最適化されたコンパクトな表現を生成する。
この圧縮は、現在のクエリとあまり関係のない情報を抑制することができるが、後続の推測ステップでは重要である。
対照的に、ターゲットモデルのKVキャッシュは明示的なコンテキストとして機能し、トークン単位のKV表現の完全なセットを保持する。
そこで我々は、KV-Reuse仮説を仮定し、ターゲットのKVキャッシュを再利用することで、長距離ドラフトのためによりリッチな信号を提供できるようにした。
この仮説をテストするために,隠れ専用,KV専用,ハイブリッドの3つの再利用パラダイムを比較する診断フレームワークであるKVShotを紹介する。
Qwen3-8Bの大規模な評価では、KV-Reuseは長距離の受け入れを改善するが、エンドツーエンドのスピードアップは現在のトレーニングパイプラインでは限界を保っている。
本分析では,ターゲットクエリの正確な推定に苦慮する浅層起案者や,ドラフト側KVプロジェクションが緩やかな勾配信号を受信する,という2つの重要な構造的ボトルネックを明らかにした。
これらの結果から,KV認識復号化の可能性を実現するには,TTTを超えてブロックワイドトレーニングパラダイムに移行する必要があることが示唆された。
これらのボトルネックを明らかにすることで、KVShotは基礎的な診断テストベッドと、次世代の推論アーキテクチャを設計するための明確なロードマップを提供する。
関連論文リスト
- Predicting Future Utility: Global Combinatorial Optimization for Task-Agnostic KV Cache Eviction [19.14455067106419]
現在のKVキャッシュ消去法は、すべての頭において重要な指標としてスコアが一貫したプロキシであることを暗黙的に仮定して、瞬時メトリクスに依存している。
本稿では,長期的セマンティック情報を保存する上で,最適予算配分は限界効用によって管理されるべきであることを示す。
LU-KVの実践的展開を容易にするために,データ駆動型オフラインプロファイリングプロトコルを実装した。
論文 参考訳(メタデータ) (2026-02-09T12:23:38Z) - ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution [84.41751286055909]
我々は、長文世代におけるどのKVペアを退避させるかを予測する訓練ベースのKVキャッシュ消去フレームワークを開発した。
我々は、マルコフ決定過程としてキャッシュ消去を定式化し、GRPOアルゴリズムを適用し、低エントロピートークンにおける言語モデリング損失の増加を緩和する。
論文 参考訳(メタデータ) (2026-02-03T07:16:51Z) - FAEDKV: Infinite-Window Fourier Transform for Unbiased KV Cache Compression [18.12657364501536]
FAEDKVは、トレーニング不要のKVキャッシュ圧縮フレームワークである。
初期の情報と最近の情報の両方を保存している。
LongBenchベンチマークの実験では、FAEDKVは既存のメソッドよりも最大22%優れていた。
論文 参考訳(メタデータ) (2025-07-26T18:20:25Z) - KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。
デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。
キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文 参考訳(メタデータ) (2025-07-15T12:52:12Z) - Draft-based Approximate Inference for LLMs [7.287280338330983]
本稿では,大規模言語モデル推論のための新しいフレームワークを提案する。
提案手法の2つのインスタンス化について述べる: (i) SpecKV, ドラフトアウトプットを利用してKVペアの重要性を正確に評価し, より効率的なKVキャッシュダウンを実現する方法, (ii) SpecPC, ドラフトモデルのアテンションアクティベーションを使用して重要でないプロンプトトークンを識別・破棄する手法。
我々の手法は、メモリ使用量、レイテンシ、スループットが同じ改善を保ちながら、既存のベースラインよりも常に高い精度を達成する。
論文 参考訳(メタデータ) (2025-06-10T02:37:46Z) - Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。
Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文 参考訳(メタデータ) (2025-02-19T08:50:44Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [97.41972925670508]
大規模視覚言語モデル(LVLM)は、推論中に重要な計算とメモリオーバーヘッドを引き起こす。
ここでは、PrefixKVについて述べる。ここでは、Prefixは、元のシーケンスの位置ではなく、重要度に基づいて、上位ランクのKVを意味する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - No Token Left Behind: Reliable KV Cache Compression via Importance-Aware
Mixed Precision Quantization [31.806112535762367]
キーバリューキャッシングは、生成型大規模言語モデル(LLM)の推論速度とスループットを加速する重要な技術となっている。
論文 参考訳(メタデータ) (2024-02-28T06:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。