論文の概要: How to Compress KV Cache in RL Post-Training? Shadow Mask Distillation for Memory-Efficient Alignment
- arxiv url: http://arxiv.org/abs/2605.06850v1
- Date: Thu, 07 May 2026 18:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.557388
- Title: How to Compress KV Cache in RL Post-Training? Shadow Mask Distillation for Memory-Efficient Alignment
- Title(参考訳): RL後処理におけるKVキャッシュの圧縮法 : 記憶効率向上のためのシャドウマスク蒸留法
- Authors: Rui Zhu, Weiheng Bai, Qiushi Wu, Yang Ren, Haixu Tang, Yuchu Liu,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の高度な推論能力を解き放つための重要なパラダイムとして登場した。
オンラインRLは本質的に探索軌道生成(ロールアウト)フェーズを必要とする。
ロールアウト中にKVキャッシュ圧縮を適用すると、このメモリオーバーヘッドが軽減されるが、重要な非政治バイアスを引き起こす。
重要度の再重み付けのような既存の統計解は、この拡大したバイアスを修正するのに苦労する。
- 参考スコア(独自算出の注目度): 9.677772092448265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has emerged as a crucial paradigm for unlocking the advanced reasoning capabilities of Large Language Models (LLMs), encompassing frameworks like RLHF and RLAIF. Regardless of the specific optimization algorithm (e.g., PPO, GRPO, or Online DPO), online RL inherently requires an exploratory trajectory generation (rollout) phase. However, for long-context reasoning tasks, this rollout phase imposes a severe ``memory wall'' due to the exorbitant Key-Value (KV) cache footprint. While applying KV cache compression during rollouts mitigates this memory overhead, it induces a critical off-policy bias. Although modern KV compression is often nearly lossless during standard inference, even minuscule approximation errors are drastically amplified by the inherent instability of RL optimization. Specifically, the sampler generates responses under a sparse context, whereas the learner updates parameters using the full, dense context. Existing statistical solutions, such as importance reweighting, struggle to correct this magnified bias, suffering from high gradient variance and severe sample inefficiency.
- Abstract(参考訳): 強化学習(RL)は、LLHFやRLAIFといったフレームワークを含む、LLM(Large Language Models)の高度な推論能力を解放するための重要なパラダイムとして登場した。
特定の最適化アルゴリズム(例えば、PPO、GRPO、オンラインDPO)に関係なく、オンラインRLは本質的に探索軌道生成(ロールアウト)フェーズを必要とする。
しかしながら、長期コンテキストの推論タスクでは、このロールアウトフェーズでは、exorbitant Key-Value(KV)キャッシュフットプリントのために、‘メモリウォール’が厳しい。
ロールアウト中にKVキャッシュ圧縮を適用すると、このメモリオーバーヘッドが軽減されるが、重要な非政治バイアスを引き起こす。
現代のKV圧縮は標準的な推論ではほとんどロスレスに近いが、極小近似誤差でさえRL最適化の固有の不安定さによって劇的に増幅される。
具体的には、サンプルはスパースコンテキスト下で応答を生成し、学習者はフルで高密度なコンテキストを使用してパラメータを更新する。
重要度再重み付けのような既存の統計解は、高勾配のばらつきと厳密なサンプル不効率に苦しむ、この拡大したバイアスを修正するのに苦労している。
関連論文リスト
- Sparse-RL: Breaking the Memory Wall in LLM Reinforcement Learning via Stable Sparse Rollouts [27.45707647061042]
大規模言語モデル(LLM)における複雑な推論能力を引き出すには強化学習(RL)が不可欠である。
既存のKV圧縮技術は、推論のための治療法を提供するが、それらをRLトレーニングに直接適用すると、厳しいポリシーミスマッチが引き起こされる。
本稿では,スパースロールアウト時の安定したRLトレーニングを支援するSparse-RLを紹介する。
論文 参考訳(メタデータ) (2026-01-15T05:12:03Z) - Breadcrumbs Reasoning: Memory-Efficient Reasoning with Compression Beacons [22.085345397844687]
本稿では,KVキャッシュを学習用専用トークンで周期的に圧縮することを提案する。
我々は, この圧縮を行うために, 改良された共同蒸留および強化学習フレームワークを用いてモデルを訓練する。
本手法は,キャッシュ圧縮のないモデルとトレーニング不要な圧縮技術の両方と比較して,優れたメモリ精度のフロンティアを実現する。
論文 参考訳(メタデータ) (2025-10-15T17:57:21Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。
保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。
我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文 参考訳(メタデータ) (2025-03-02T18:12:50Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。