論文の概要: Which Heads Matter for Reasoning? RL-Guided KV Cache Compression
- arxiv url: http://arxiv.org/abs/2510.08525v1
- Date: Thu, 09 Oct 2025 17:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.273403
- Title: Which Heads Matter for Reasoning? RL-Guided KV Cache Compression
- Title(参考訳): RL誘導KVキャッシュ圧縮のどのヘッドが重要か
- Authors: Wenjie Du, Li Jiang, Keda Tao, Xue Liu, Huan Wang,
- Abstract要約: 推論可能な大きな言語モデルは、拡張されたチェーン・オブ・ソート・ジェネレーションを通じて複雑な推論の振る舞いを示す。
既存のKVキャッシュ圧縮手法は推論モデルでは性能が低い。
本稿では,新しい推論クリティカルな頭部識別フレームワークRLKVを提案する。
- 参考スコア(独自算出の注目度): 15.865990296257413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning large language models exhibit complex reasoning behaviors through the extended chain-of-thought generation, creating unprecedented Key-Value (KV) cache overhead during the decoding phase. Existing KV cache compression methods underperform on reasoning models: token-dropping methods break reasoning integrity by discarding critical information, while head-reallocating methods mistakenly compress reasoning-critical heads since they are designed for retrieval tasks, resulting in significant performance degradation as compression rates increase. We hypothesize that KV heads exhibit functional heterogeneity in reasoning models-some heads are critical for chain-of-thought consistency while others are compressible. To validate and exploit this insight, we propose RLKV, a novel reasoning-critical head identification framework, which uses reinforcement learning to directly optimize the relationship between each head's cache usage and reasoning quality. As RLKV produces rewards from actual generated samples during training, it naturally identifies heads relevant to reasoning behaviors. We then allocate full KV cache to these heads while applying compressed constant KV cache to others for efficient inference. Our experiments reveal that only a small fraction of attention heads is essential for reasoning, enabling our KV compression approach to outperform baseline methods while achieving 20-50% cache reduction with near lossless performance compared to uncompressed results.
- Abstract(参考訳): 大規模言語モデルの推論は、拡張されたチェーン・オブ・ソート生成を通じて複雑な推論動作を示し、デコーディングフェーズ中に前例のないキーバリュー(KV)キャッシュオーバーヘッドを発生させる。
既存のKVキャッシュ圧縮法は推論モデルで性能が低い: トークンドロップ法は臨界情報を捨てて推論整合性を損なう一方、ヘッド再配置法は検索タスク用に設計されているため、誤って推論臨界ヘッドを圧縮し、圧縮速度が増加するにつれて性能が著しく低下する。
我々は、KVヘッドが理論モデルにおいて機能的不均一性を示すという仮説を立てる。
この知見を検証し,活用するために,RLKVを提案する。RLKVは,強化学習を用いて,各ヘッドのキャッシュ使用量と推論品質の関係を直接最適化する,新しい推論クリティカルな頭部識別フレームワークである。
RLKVはトレーニング中に生成された実際のサンプルから報酬を生成するため、推論行動に関連する頭部を自然に識別する。
次に、圧縮された定数KVキャッシュを他人に印加しながら、これらのヘッドにフルKVキャッシュを割り当て、効率的な推論を行う。
実験の結果,KV圧縮手法がベースライン法より優れ,20~50%のキャッシュ削減が可能であり,非圧縮結果と比較してほぼロスレス性能が得られることがわかった。
関連論文リスト
- ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - R-KV: Redundancy-aware KV Cache Compression for Reasoning Models [77.84539432982307]
共振モデル(R-KV)のための冗長性を考慮したKVキャッシュ圧縮を提案する。
R-KVはKVキャッシュの10%しか使用せず、完全なKVキャッシュ性能のほぼ100%を保っている。
驚くべきことに、R-KVは完全なKVキャッシュ性能の105%を達成し、KVキャッシュの16%を達成している。
論文 参考訳(メタデータ) (2025-05-30T02:03:24Z) - Not All Heads Matter: A Head-Level KV Cache Compression Method with Integrated Retrieval and Reasoning [19.942402563256962]
キーバリューキャッシング(キーバリューキャッシング、英: Key-Value cache)は、大規模言語モデル(LLM)の計算効率を高めるための一般的な手法である。
本稿では,新たな文脈推論能力推定手法であるヘッドKVとヘッドKV-R2を提案する。
本手法は,文脈質問応答ベンチマークにおいて,全KVキャッシュの性能の97%を達成しつつ,KVキャッシュの1.5%しか保持しない。
論文 参考訳(メタデータ) (2024-10-25T02:22:00Z) - RazorAttention: Efficient KV Cache Compression Through Retrieval Heads [11.708388082001074]
トークン情報を全て保存するキーバリューキャッシュのための新しい圧縮手法を提案する。
RazorAttentionは、パフォーマンスに顕著な影響を与えずに、KVキャッシュサイズを70%以上削減する。
論文 参考訳(メタデータ) (2024-07-22T01:12:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。