論文の概要: Prune as You Generate: Online Rollout Pruning for Faster and Better RLVR
- arxiv url: http://arxiv.org/abs/2603.24840v1
- Date: Wed, 25 Mar 2026 22:10:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.00221
- Title: Prune as You Generate: Online Rollout Pruning for Faster and Better RLVR
- Title(参考訳): Prune as you Generate: オンライン・ロールアウト・プルーニングの高速化とRLVRの改善
- Authors: Haobo Xu, Sirui Chen, Ruizhong Qiu, Yuchen Yan, Chen Luo, Monica Cheng, Jingrui He, Hanghang Tong,
- Abstract要約: 本稿では,オンラインロールアウトプルーニング手法であるarrol(オンラインロールアウトプルーニングによるRLVRの高速化)を紹介する。
Arrolは軽量なクオリティヘッドをオンザフライでトレーニングし、部分的なロールアウトの成功確率を予測する。
Qwen-3とLLaMA-3.2のGRPOとDAPO全体で、アロールは平均精度を+2.30から+2.99に改善し、最大1.7倍のトレーニングスピードアップを達成する。
- 参考スコア(独自算出の注目度): 78.88799271719365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has significantly advanced the reasoning capabilities of Large Language Models (LLMs). However, methods such as GRPO and DAPO suffer from substantial computational cost, since they rely on sampling many rollouts for each prompt. Moreover, in RLVR the relative advantage is often sparse: many samples become nearly all-correct or all-incorrect, yielding low within-group reward variance and thus weak learning signals. In this paper, we introduce arrol (Accelerating RLVR via online Rollout Pruning), an online rollout pruning method that prunes rollouts during generation while explicitly steering the surviving ones more correctness-balanced to enhance learning signals. Specifically, arrol trains a lightweight quality head on-the-fly to predict the success probability of partial rollouts and uses it to make early pruning decisions. The learned quality head can further weigh candidates to improve inference accuracy during test-time scaling. To improve efficiency, we present a system design that prunes rollouts inside the inference engine and re-batches the remaining ones for log-probability computation and policy updates. Across GRPO and DAPO on Qwen-3 and LLaMA-3.2 models (1B-8B), arrol improves average accuracy by +2.30 to +2.99 while achieving up to 1.7x training speedup, and yielding up to +8.33 additional gains in average accuracy in test-time scaling. The code is available at https://github.com/Hsu1023/ARRoL.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、Large Language Models (LLM) の推論能力を大幅に向上させた。
しかし、GRPOやDAPOのような手法は、各プロンプトに対して多数のロールアウトをサンプリングすることに依存するため、かなりの計算コストに悩まされる。
さらに、RLVRでは、相対的な優位性は希薄であり、多くのサンプルは、ほぼ完全に正しいか、完全に不正確なものとなり、グループ内報酬の分散が低くなり、学習信号が弱くなる。
本稿では,オンラインのロールアウト・プルーニング手法であるarrol (Accelerating RLVR via online Rollout Pruning)を導入する。
具体的には、アロールは軽量なクオリティヘッドをオンザフライでトレーニングし、部分的なロールアウトの成功確率を予測する。
学習された品質ヘッドは、テスト時間スケーリング時の推論精度を改善するために候補をさらに重み付けすることができる。
効率を向上させるため,推論エンジン内部のロールアウトを実行し,残りをログ確率計算やポリシー更新のために再バッチするシステム設計を提案する。
Qwen-3 と LLaMA-3.2 の GRPO と DAPO (1B-8B) 全体で、アロールは平均精度を +2.30 から +2.99 に改善し、最大1.7倍のトレーニングスピードアップを実現し、テストタイムスケーリングにおける平均精度は +8.33 まで向上した。
コードはhttps://github.com/Hsu1023/ARRoLで公開されている。
関連論文リスト
- On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation [81.29776444949539]
アップデートの方向性は、RLVRの効果を理解するためのより重要なレンズである、と我々は主張する。
我々の研究は、RLVRの分析と改善の鍵となる原則として変化の方向を確立する。
論文 参考訳(メタデータ) (2026-03-23T15:42:24Z) - Prompt replay: speeding up grpo with on-policy reuse of high-signal prompts [0.0]
検証可能な報酬(RLVR)による強化学習は推論能力の拡大に重要な役割を担っているが、GRPOスタイルのトレーニングは高価なロールアウトと使い捨てのプロンプトで計算される無駄に支配されている。
本稿では,GRPO のオーバヘッドフリーなオンラインデータ選択手法である Prompt Replay を提案する。
論文 参考訳(メタデータ) (2026-03-22T11:39:51Z) - Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards [69.74686029941881]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力を改善するための効果的なパラダイムである。
トレーニングを通して高価値ロールアウトを適応的に選択する統合型ニューラルネットワークスケジューリングフレームワークを提案する。
6つの数学的推論ベンチマークの実験では、複数のRLVR最適化手法で性能と訓練効率が一貫した向上を示した。
論文 参考訳(メタデータ) (2026-02-09T10:51:58Z) - Beyond Variance: Prompt-Efficient RLVR via Rare-Event Amplification and Bidirectional Pairing [21.946965363578087]
検証可能な報酬付き強化学習(RLVR)は、決定論的結果推論タスクにおいて、大規模言語モデルのトレーニングに有効である。
以前の研究によると、RLVRはプロンプトが少ないが、迅速な選択はトレーニング精度のばらつきにのみ基づくことが多い。
有効なミニバッチは、(i)信頼できる正のアンカーと(ii)稀な障害からの明確な負の学習信号の両方を提供するべきである。
論文 参考訳(メタデータ) (2026-02-03T12:17:25Z) - JudgeRLVR: Judge First, Generate Second for Efficient Reasoning [20.448286296459344]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルにおける推論の標準パラダイムとなっている。
本稿では,識別能力が効率的な生成の前提条件であると主張している。
本稿では,2段階の審査理論であるジャッジRLVRを提案する。
論文 参考訳(メタデータ) (2026-01-13T11:47:42Z) - DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。
DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文 参考訳(メタデータ) (2025-10-16T20:05:57Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - Kevin: Multi-Turn RL for Generating CUDA Kernels [0.0]
我々は,現実の環境で遭遇するユニークな課題に対処する,柔軟なマルチターンRLレシピを開発した。
評価設定では、Kevinはベースモデルよりも大幅に向上している。
また,テスト時のスケーリング軸の挙動についても検討した。
論文 参考訳(メタデータ) (2025-07-16T06:33:07Z) - Act Only When It Pays: Efficient Reinforcement Learning for LLM Reasoning via Selective Rollouts [28.17839625646103]
ロールアウト前に非形式的なプロンプトをスキップすることで,計算オーバーヘッドのかなりの部分が回避可能であることを示す。
我々は,非形式的プロンプトを予測・スキップするオンライン軽量プリロールアウトフィルタリングアルゴリズムであるGRESOを提案する。
GRESOは, ロールアウト時に最大2.4倍, トレーニング時間全体で最大2.0倍の高速化を達成でき, 精度は低下しない。
論文 参考訳(メタデータ) (2025-06-02T19:03:00Z) - Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers [57.95157497749428]
RL$V$は、LLMを推論器と生成検証器の両方として共同で訓練することにより、任意の値自由なRL法を増強する。
RL$V$は、並列サンプリングでMATHの精度を20%以上向上し、効率的なテスト時間計算のスケーリングを可能にする。
論文 参考訳(メタデータ) (2025-05-07T22:41:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。