論文の概要: Sparse-RL: Breaking the Memory Wall in LLM Reinforcement Learning via Stable Sparse Rollouts
- arxiv url: http://arxiv.org/abs/2601.10079v1
- Date: Thu, 15 Jan 2026 05:12:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.996124
- Title: Sparse-RL: Breaking the Memory Wall in LLM Reinforcement Learning via Stable Sparse Rollouts
- Title(参考訳): スパースRL:安定なスパースロールアウトによるLLM強化学習におけるメモリウォールの破壊
- Authors: Sijia Luo, Xiaokang Zhang, Yuxuan Hu, Bohan Zhang, Ke Wang, Jinbo Su, Mengshu Sun, Lei Liang, Jing Zhang,
- Abstract要約: 大規模言語モデル(LLM)における複雑な推論能力を引き出すには強化学習(RL)が不可欠である。
既存のKV圧縮技術は、推論のための治療法を提供するが、それらをRLトレーニングに直接適用すると、厳しいポリシーミスマッチが引き起こされる。
本稿では,スパースロールアウト時の安定したRLトレーニングを支援するSparse-RLを紹介する。
- 参考スコア(独自算出の注目度): 27.45707647061042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has become essential for eliciting complex reasoning capabilities in Large Language Models (LLMs). However, the substantial memory overhead of storing Key-Value (KV) caches during long-horizon rollouts acts as a critical bottleneck, often prohibiting efficient training on limited hardware. While existing KV compression techniques offer a remedy for inference, directly applying them to RL training induces a severe policy mismatch, leading to catastrophic performance collapse. To address this, we introduce Sparse-RL empowers stable RL training under sparse rollouts. We show that instability arises from a fundamental policy mismatch among the dense old policy, the sparse sampler policy, and the learner policy. To mitigate this issue, Sparse-RL incorporates Sparsity-Aware Rejection Sampling and Importance-based Reweighting to correct the off-policy bias introduced by compression-induced information loss. Experimental results show that Sparse-RL reduces rollout overhead compared to dense baselines while preserving the performance. Furthermore, Sparse-RL inherently implements sparsity-aware training, significantly enhancing model robustness during sparse inference deployment.
- Abstract(参考訳): 強化学習(RL)は,大規模言語モデル(LLM)における複雑な推論能力を引き出すために欠かせないものとなっている。
しかし、長時間のロールアウト中にキーバリュー(KV)キャッシュを保存するというメモリオーバーヘッドは重大なボトルネックとなり、しばしば限られたハードウェアでの効率的なトレーニングを禁止している。
既存のKV圧縮技術は推論の治療法を提供するが、それらをRLトレーニングに直接適用すると、厳しいポリシーミスマッチが発生し、破滅的なパフォーマンスが崩壊する。
そこで本研究では,スパースロールアウト時の安定したRLトレーニングを実現するSparse-RLを提案する。
不安定性は、密集した古い政策、スパース・サンプル・ポリシー、学習者政策の基本的な政策ミスマッチから生じることを示す。
この問題を緩和するため、Sparse-RLは、圧縮によって引き起こされる情報損失によって引き起こされる政治的偏見を修正するために、スパーシリティ・アウェア・リジェクション・サンプリングと重要度に基づくリウェイトを取り入れている。
実験結果から,Sparse-RLは高密度ベースラインに比べてロールアウトのオーバーヘッドを低減し,性能を維持できることがわかった。
さらに、スパース-RLは本質的にスパース・アウェア・トレーニングを実装しており、スパース推論デプロイメント時のモデルロバスト性を大幅に向上させる。
関連論文リスト
- Expressive Value Learning for Scalable Offline Reinforcement Learning [9.946269411850064]
強化学習(Reinforcement Learning, RL)は、意思決定の順序を学習するための強力なパラダイムである。
オフラインRLは、大規模で多様なデータセットのトレーニングエージェントによる有望な道を提供する。
オフライン強化学習のための表現的価値学習(EVOR)を導入する。これはスケーラブルなオフラインRLアプローチであり、表現的ポリシーと表現的価値関数を統合している。
論文 参考訳(メタデータ) (2025-10-09T13:42:20Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [65.14124923451077]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - CAMP in the Odyssey: Provably Robust Reinforcement Learning with Certified Radius Maximization [27.55377940017779]
深層強化学習(DRL)は、動的環境における強い性能のため、制御と意思決定タスクに広く採用されている。
近年の取り組みは、DRLエージェントが敵の環境で達成したリターンの厳密な理論的保証を確立することで、ロバストネスの問題に対処することに焦点を当てている。
我々は、DRLポリシーを強化するために、texttCertified-rtextttAdius-textttMaximizing textttPolicy (texttt CAMP)トレーニングと呼ばれる新しいパラダイムを導入する。
論文 参考訳(メタデータ) (2025-01-29T14:08:08Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Efficient Adversarial Training without Attacking: Worst-Case-Aware
Robust Reinforcement Learning [14.702446153750497]
Worst-case-aware Robust RL (WocaR-RL) は、深層強化学習のための堅牢なトレーニングフレームワークである。
我々は,WocaR-RLが様々な攻撃により最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2022-10-12T05:24:46Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。