論文の概要: Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR
- arxiv url: http://arxiv.org/abs/2508.14029v1
- Date: Tue, 19 Aug 2025 17:42:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:32.036026
- Title: Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR
- Title(参考訳): Beyond Pass@1: RLVRを持続する変分問題合成によるセルフプレイ
- Authors: Xiao Liang, Zhongzhi Li, Yeyun Gong, Yelong Shen, Ying Nian Wu, Zhijiang Guo, Weizhu Chen,
- Abstract要約: RLVRトレーニングのためのオンライン変分問題合成(SvS)戦略を提案する。
この戦略は、トレーニング中のポリシーのエントロピーを効果的に維持し、標準のRLVRと比較してPass@kを大幅に改善する。
- 参考スコア(独自算出の注目度): 102.05010188302428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as a key paradigm for post-training Large Language Models (LLMs), particularly for complex reasoning tasks. However, vanilla RLVR training has been shown to improve Pass@1 performance at the expense of policy entropy, leading to reduced generation diversity and limiting the Pass@k performance, which typically represents the upper bound of LLM reasoning capability. In this paper, we systematically analyze the policy's generation diversity from the perspective of training problems and find that augmenting and updating training problems helps mitigate entropy collapse during training. Based on these observations, we propose an online Self-play with Variational problem Synthesis (SvS) strategy for RLVR training, which uses the policy's correct solutions to synthesize variational problems while ensuring their reference answers remain identical to the originals. This self-improving strategy effectively maintains policy entropy during training and substantially improves Pass@k compared with standard RLVR, sustaining prolonged improvements and achieving absolute gains of 18.3% and 22.8% in Pass@32 performance on the competition-level AIME24 and AIME25 benchmarks. Experiments on 12 reasoning benchmarks across varying model sizes from 3B to 32B consistently demonstrate the generalizability and robustness of SvS.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR)は、特に複雑な推論タスクにおいて、後学習の大規模言語モデル(LLM)の重要なパラダイムとして最近登場した。
しかしながら、バニラRLVRトレーニングは、ポリシーエントロピーを犠牲にしてPass@1のパフォーマンスを改善することが示されており、それによって生成の多様性が減少し、一般的にLLM推論能力の上限を表すPass@kパフォーマンスが制限される。
本稿では,トレーニング問題の観点から,政策の世代多様性を体系的に分析し,トレーニング問題の拡大と更新が,トレーニング中のエントロピー崩壊の軽減に有効であることを示す。
そこで本研究では,RLVRトレーニングのためのオンラインセルフプレイと変分問題合成(SvS)戦略を提案する。
この自己改善戦略は、トレーニング中のポリシーのエントロピーを効果的に維持し、標準のRLVRと比較してPass@kを大幅に改善し、コンペティションレベルのAIME24とAIME25ベンチマークで18.3%と22.8%の絶対的な改善を達成している。
3Bから32Bまでのモデルサイズの異なる12の推論ベンチマーク実験は、SvSの一般化性と堅牢性を一貫して示している。
関連論文リスト
- ETTRL: Balancing Exploration and Exploitation in LLM Test-Time Reinforcement Learning Via Entropy Mechanism [11.234942110783077]
実験時間強化学習における探索・探索バランスを高めるためのエントロピーに基づくメカニズムを提案する。
ベースラインと比較すると、Llama3.1-8Bは1メートルでのパスの68%の相対的な改善を達成できる。
論文 参考訳(メタデータ) (2025-08-15T09:49:14Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks [49.0793012627959]
本稿では,価値に基づくパラダイム内での推論モデルに適した新しいフレームワークVAPOを提案する。
VAPOは最先端のスコアが$mathbf60.4$に達する。
同じ実験条件下で直接比較すると、VAPOはDeepSeek-R1-Zero-Qwen-32BとDAPOの結果を10点以上上回っている。
論文 参考訳(メタデータ) (2025-04-07T14:21:11Z) - Robust Reinforcement Learning as a Stackelberg Game via
Adaptively-Regularized Adversarial Training [43.97565851415018]
ロバスト強化学習(RL)は、モデルエラーや敵攻撃によるパフォーマンス向上に重点を置いている。
既存の文献の多くは、解の概念としてナッシュ平衡を伴うゼロサム同時ゲームとして RARL をモデル化している。
RRL-Stackと呼ばれる一般のStackelbergゲームモデルである、ロバストなRLの階層的な新しい定式化を導入する。
論文 参考訳(メタデータ) (2022-02-19T03:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。