論文の概要: Rollout Pass-Rate Control: Steering Binary-Reward RL Toward Its Most Informative Regime
- arxiv url: http://arxiv.org/abs/2605.05112v2
- Date: Fri, 08 May 2026 15:56:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:22.926203
- Title: Rollout Pass-Rate Control: Steering Binary-Reward RL Toward Its Most Informative Regime
- Title(参考訳): ロールアウトパスレート制御:最もインフォームティブなレジームに向けた2次リワードRLのステアリング
- Authors: Tianshu Zhu, Wenyu Zhang, Xiaoying Zuo, Lun Tian, Haotian Zhao, Yucheng Zeng, Jingnan Gu, Daxiang Dong, Jianmin Wu, Dawei Yin, Dou Shen,
- Abstract要約: Prefix Sampling (PS)は、自己生成した軌跡の接頭辞を再生し、スキュードグループをこの体制に向けて操る。
PSは評価変数のベースラインのハイスコア状態に達し、2.01xと1.55xのエンドツーエンドのウォールクロックスピードアップを提供する。
AIME 2025は4Bと8Bで同じパスレート制御パターンを示した。
- 参考スコア(独自算出の注目度): 28.346931878148524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic reinforcement learning (RL) for software engineering spends much of its compute on stateful trajectories whose grouped binary rewards are highly skewed and weakly contrastive. We frame this as pass-rate control and show that the binary reward-side signal is strongest near a 50% rollout pass rate under four criteria: reward entropy, group-filtering survival, leave-one-out (RLOO) advantage energy under Group Relative Policy Optimization (GRPO), and success-failure pair count. We propose Prefix Sampling (PS), which replays self-generated trajectory prefixes to steer skewed groups toward this regime: successful prefixes give mostly failing groups a head start, while failing prefixes handicap mostly passing groups. Replayed states are reconstructed through the existing rollout path, and replayed tokens are masked from the loss so optimization applies only to current-policy continuations. On SWE-bench Verified, PS reaches the baseline high-score regime within evaluation variability while delivering 2.01x and 1.55x end-to-end wall-clock speedups on Qwen3-14B and Qwen3-32B; the 14B peak improves from 0.274 to 0.295. AIME 2025 experiments on 4B and 8B show the same pass-rate-control pattern, and 4B ablations attribute gains to replay, bidirectional coverage, and adaptive control.
- Abstract(参考訳): ソフトウェア工学のためのエージェント強化学習(RL)は、その計算の大部分を、グループ化されたバイナリ報酬が非常に歪んで、対照的に弱いステートフルな軌道に費やしている。
我々はこれをパスレート制御とし、報酬エントロピー、グループフィルタリングサバイバル、グループ相対政策最適化(GRPO)の下での残余(RLOO)アドバンテージエネルギ、成功と失敗のペア数という4つの基準の下で、バイナリ報酬側信号が50%のロールアウトパスレートで最強であることを示す。
今回我々は,自己生成した軌跡接頭辞をスキュードグループにリプレイするPrefix Sampling (PS)を提案する。
リプレイされた状態は既存のロールアウトパスを通して再構成され、リプレイされたトークンは損失から隠蔽されるため、最適化は現在の政治継続にのみ適用される。
SWEベンチ検証では、PSは、Qwen3-14BとQwen3-32Bで2.1xと1.55xのエンドツーエンドのウォールクロックスピードアップを提供しながら、評価変数のベースライン高スコア状態に達し、14Bピークは0.274から0.295に改善される。
AIME 2025は4Bと8Bで同じパスレート制御パターンを示し、4Bのアブレーション特性はリプレイ、双方向カバレッジ、適応制御に有効である。
関連論文リスト
- ReCast: Recasting Learning Signals for Reinforcement Learning in Generative Recommendation [18.825912740441858]
本稿では,ReCastを提案する。
ReCastは全ゼログループに対して最小限の学習性を復元することを示す。
また、ReCastは永続的なオールゼロ/シングルヒット体制を緩和します。
論文 参考訳(メタデータ) (2026-04-24T02:44:36Z) - What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time [57.533031432715084]
TTRL(Test-Time Reinforcement Learning)は、Large Language Models(LLM)が、ラベルのないテストストリームの推論能力を向上することを可能にする。
既存のTTRL法は、正の擬似ラベル戦略にのみ依存している。
本研究では,ラベル雑音増幅を効果的に緩和する堅牢なテスト時間強化学習フレームワークであるSCRLを提案する。
論文 参考訳(メタデータ) (2026-03-20T11:47:12Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models [68.45272703833209]
現状のPRMは、逆最適化圧力下で体系的に利用可能であることを示す。
これらの脆弱性を定量化するために、敵の圧力を増大させる3段階の診断フレームワークを導入する。
我々は、PRM-BiasBenchと診断ツールキットをリリースし、デプロイ前にロバストネスの評価を可能にする。
論文 参考訳(メタデータ) (2026-02-20T23:38:03Z) - WS-GRPO: Weakly-Supervised Group-Relative Policy Optimization for Rollout-Efficient Reasoning [67.45237332694025]
グループ相対政策最適化は、複雑な推論に基づいて言語モデルを訓練するのに効果的である。
Weakly Supervised GRPOを提案し、端末報酬を正当性を考慮したガイダンスに変換することにより、ロールアウト効率を向上させる。
論文 参考訳(メタデータ) (2026-02-19T02:43:35Z) - STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens [38.425692691443764]
既存の強化学習(RL)ファインチューニング手法は、安定性を維持するためにエントロピー正則化と再重み付けに大きく依存している。
実際には、彼らはしばしば後期的なパフォーマンスの崩壊に悩まされ、推論品質の低下と不安定なトレーニングにつながります。
トレーニングの不安定性は、約0.01%の少量のトークンによって引き起こされる可能性がある。
安定かつ効果的な大規模モデル改良を促進するSTAPO(Spurious-Token-Aware Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2026-02-17T14:46:48Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - Quantile Advantage Estimation for Entropy-Safe Reasoning [44.192277495613695]
RLVRによる強化学習はLLM推論を強化するが、エントロピー崩壊とエントロピー爆発の間のトレーニングはしばしば振動する
いずれのハザードも値のないRLで使われる平均ベースラインに辿り着くが、これは不適切に報酬のアウトリージの下で負のアドバンテージサンプルをペナルティ化する。
本稿では,平均値をグループ単位のK量子基底線に置き換えた量子アドバンテージ推定(QAE)を提案する。
論文 参考訳(メタデータ) (2025-09-26T17:37:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。