論文の概要: CoPRIS: Efficient and Stable Reinforcement Learning via Concurrency-Controlled Partial Rollout with Importance Sampling
- arxiv url: http://arxiv.org/abs/2511.05589v1
- Date: Wed, 05 Nov 2025 11:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.475167
- Title: CoPRIS: Efficient and Stable Reinforcement Learning via Concurrency-Controlled Partial Rollout with Importance Sampling
- Title(参考訳): CoPRIS: 重要サンプリングによる並行制御部分ロールアウトによる効率的かつ安定した強化学習
- Authors: Zekai Qu, Yinxu Pan, Ao Sun, Chaojun Xiao, Xu Han,
- Abstract要約: 重要サンプリングを用いた並列制御部分ロールアウト(CoPRIS)を提案する。
CoPRISは、一定数の同時ロールアウトを維持し、十分なサンプルが収集されたら早期終了し、その後のロールアウトで未完成のトラジェクトリを再利用することで、長いテールの非効率を緩和する。
実験の結果、CoPRISは同期RLシステムに匹敵する性能を維持しながら、最大1.94倍高速なトレーニングを実現している。
- 参考スコア(独自算出の注目度): 11.252930904797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) post-training has become a trending paradigm for enhancing the capabilities of large language models (LLMs). Most existing RL systems for LLMs operate in a fully synchronous manner, where training must wait for the rollout of an entire batch to complete. This design leads to severe inefficiencies, as extremely long trajectories can stall the entire rollout process and leave many GPUs idle. To address this issue, we propose Concurrency- Controlled Partial Rollout with Importance Sampling (CoPRIS), which mitigates long-tail inefficiencies by maintaining a fixed number of concurrent rollouts, early-terminating once sufficient samples are collected, and reusing unfinished trajectories in subsequent rollouts. To mitigate the impact of off-policy trajectories, we introduce Cross-stage Importance Sampling Correction, which concatenates buffered log probabilities from the previous policy with those recomputed under the current policy for importance sampling correction. Experiments on challenging mathematical reasoning benchmarks show that CoPRIS achieves up to 1.94x faster training while maintaining comparable or superior performance to synchronous RL systems. The code of CoPRIS is available at https://github.com/777pomingzi/CoPRIS.
- Abstract(参考訳): 強化学習(RL)のポストトレーニングは,大規模言語モデル(LLM)の能力向上のためのトレンドパラダイムとなっている。
LLMの既存のRLシステムは、完全に同期的に動作し、トレーニングはバッチ全体のロールアウトが完了するのを待たなければならない。
この設計は、非常に長い軌道がロールアウトプロセス全体を中断し、多くのGPUをアイドル状態にしておけるため、重大な非効率をもたらす。
この問題に対処するため,コンカレント制御部分ロールアウト(CoPRIS)を提案する。コンカレント制御部分ロールアウト(Concurrency- Controlled partial Rollout with Importance Smpling, CoPRIS)は,一定数の同時ロールアウトを維持することで,早期に十分なサンプルが収集され,その後のロールアウトで未完成のトラジェクトリを再利用する。
そこで本稿では,従来の政策からバッファリングされたログ確率と,現在の重要サンプリング補正方針の下で再計算されたログ確率を結合した,クロスステージ・コンパタンス・サンプリング・コレクションを導入する。
挑戦的な数学的推論ベンチマークの実験では、CoPRISは同期RLシステムと同等または優れた性能を維持しながら、最大1.94倍の高速なトレーニングを達成している。
CoPRISのコードはhttps://github.com/777pomingzi/CoPRISで公開されている。
関連論文リスト
- RollPacker: Mitigating Long-Tail Rollouts for Fast, Synchronous RL Post-Training [19.00988498482758]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の推論能力を高めるための重要なポストトレーニング手法である。
多くのRLシステムは同期を緩和することでこの問題を緩和しようとするが、これは精度のトレーニングを損なう可能性がある。
同期RLのための新しいロールアウトスケジューリング戦略であるtailを導入し,ロールアウトステップの小さなサブセット(ロングラウンド)に長いテール応答をもたらすプロンプトを体系的に統合する。
RollPackerは、veRLと比較して2.03x-2.56xのトレーニング時間を短縮し、Qwen2.5のRLHFuseよりも最大2.24倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-09-25T11:13:22Z) - History Rhymes: Accelerating LLM Reinforcement Learning with RhymeRL [14.506189610798929]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の推論能力を高めるための重要な方法論として登場した。
RhymeRLは、RLトレーニングを2つの重要なイノベーションで加速するLLM RLシステムである。
まず、ロールアウト生成を強化するために、投機的復号推論エンジンであるHistoSpecを紹介する。
第二に、ロールアウトバブルに取り組むために、2層スケジューリング戦略であるHistoPipeを紹介します。
論文 参考訳(メタデータ) (2025-08-26T01:42:46Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [65.14124923451077]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。
ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。
本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文 参考訳(メタデータ) (2025-03-24T17:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。