論文の概要: Beyond Speedup -- Utilizing KV Cache for Sampling and Reasoning
- arxiv url: http://arxiv.org/abs/2601.20326v1
- Date: Wed, 28 Jan 2026 07:44:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.81878
- Title: Beyond Speedup -- Utilizing KV Cache for Sampling and Reasoning
- Title(参考訳): スピードアップを超えて - サンプリングと推論にKVキャッシュを使用する
- Authors: Zeyu Xing, Xing Li, Hui-Ling Zhen, Mingxuan Yuan, Sinno Jialin Pan,
- Abstract要約: KVキャッシュは、通常、自動回帰復号化をスピードアップするためにのみ使用され、ダウンストリームタスクのために余分なコストで再利用できるコンテキスト情報をエンコードする。
我々は,KVキャッシュを軽量な表現として扱うことを提案する。
- 参考スコア(独自算出の注目度): 46.206380947009784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: KV caches, typically used only to speed up autoregressive decoding, encode contextual information that can be reused for downstream tasks at no extra cost. We propose treating the KV cache as a lightweight representation, eliminating the need to recompute or store full hidden states. Despite being weaker than dedicated embeddings, KV-derived representations are shown to be sufficient for two key applications: \textbf{(i) Chain-of-Embedding}, where they achieve competitive or superior performance on Llama-3.1-8B-Instruct and Qwen2-7B-Instruct; and \textbf{(ii) Fast/Slow Thinking Switching}, where they enable adaptive reasoning on Qwen3-8B and DeepSeek-R1-Distil-Qwen-14B, reducing token generation by up to $5.7\times$ with minimal accuracy loss. Our findings establish KV caches as a free, effective substrate for sampling and reasoning, opening new directions for representation reuse in LLM inference. Code: https://github.com/cmd2001/ICLR2026_KV-Embedding.
- Abstract(参考訳): KVキャッシュは、通常、自動回帰復号化をスピードアップするためにのみ使用され、ダウンストリームタスクのために余分なコストで再利用できるコンテキスト情報をエンコードする。
我々は,KVキャッシュを軽量な表現として扱うことを提案する。
専用の埋め込みよりも弱いにもかかわらず、KV由来の表現は2つの主要な応用に十分であることが示されている。
i) Llama-3.1-8B-InstructとQwen2-7B-Instruct; および \textbf{上での競合的または優れたパフォーマンスを達成する組込みの連鎖
(ii)Qwen3-8BとDeepSeek-R1-Distil-Qwen-14Bの適応推論を可能にする高速/スローシンキングスイッチ(Fast/Slow Thinking Switching)。
本研究は,KVキャッシュをサンプリングと推論のためのフリーで効果的な基板として確立し,LLM推論における表現再利用のための新しい方向を開拓する。
コード:https://github.com/cmd2001/ICLR2026_KV-Embedding
関連論文リスト
- KVzap: Fast, Adaptive, and Faithful KV Cache Pruning [1.3320917259299652]
我々は、KVzipの高速な入力適応近似であるKVzapを導入し、プリフィルとデコードの両方で機能する。
KVzapは、無視できる精度の損失を伴うKVキャッシュ圧縮を2ドル~4ドルで達成し、KVpressのリーダーボード上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-12T08:27:47Z) - Learning What to Write: Write-Gated KV for Efficient Long-Context Inference [10.915483460983411]
我々は,KVキャッシュ管理を3つのプリミティブの因果系として定式化した。
我々は、キャッシュに入る前にトークンユーティリティを予測する軽量メカニズムであるWrite-Gated KVを介してKVAdmissionをインスタンス化する。
論文 参考訳(メタデータ) (2025-12-19T11:08:58Z) - KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction [37.97434606840326]
トランスフォーマーベースの大規模言語モデル(LLM)は、推論中にキー値(KV)ペアとしてキャッシュコンテキストを持つ。
コンテキストの長さが大きくなると、KVキャッシュのサイズが拡大し、メモリオーバーヘッドが大きくなり、注意の遅延が増大する。
本稿では,クエリに依存しないKVキャッシュ消去手法であるKVzipを紹介する。
論文 参考訳(メタデータ) (2025-05-29T13:05:47Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。