論文の概要: Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening
- arxiv url: http://arxiv.org/abs/2506.02355v1
- Date: Tue, 03 Jun 2025 01:15:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.188564
- Title: Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening
- Title(参考訳): 違い: GRPO を分散シャープ化を超えてリワードする
- Authors: Andre He, Daniel Fried, Sean Welleck,
- Abstract要約: 我々は、稀な正解の強化を明示的に促す単純な方法である異例の報酬を導入する。
実験により、不規則な報酬を組み込むことで、Nの広い範囲にわたるpass@$N$が大幅に改善されることが確認された。
改訂されたレシピをLeanに適用し、MiniF2F-testベンチマークでDeepSeek-Prover-V1.5-RLと競合するパフォーマンスを実現しました。
- 参考スコア(独自算出の注目度): 36.81125165911328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has emerged as an effective framework for training large language models on structured language-conditioned tasks. We identify a critical flaw of Group Relative Policy Optimization (GRPO), a widely used RL algorithm in this setting. For tasks that require multi-sample performance, such as formal theorem proving, GRPO biasedly reinforces already probable solutions and neglects rare but correct proofs. This implicit bias impairs performance on pass@$N$ metrics at large sample sizes, limiting its practicality for training theorem provers. To address this, we introduce the unlikeliness reward, a straightforward method that explicitly encourages reinforcing rare correct solutions. Additionally, we find that increasing the number of PPO epochs further mitigates this bias. Our experiments confirm that incorporating the unlikeliness reward significantly improves pass@$N$ across a large range of N, outperforming standard GRPO and substantially increasing sample diversity. Applying our revised recipe to Lean, we achieve competitive performance with DeepSeek-Prover-V1.5-RL on the miniF2F-test benchmark. We release our implementation, providing a simple yet effective recipe for training formal theorem provers with RL.
- Abstract(参考訳): 強化学習は、構造化言語条件タスクにおいて、大規模言語モデルを訓練するための効果的なフレームワークとして登場した。
この設定で広く使われているRLアルゴリズムであるグループ相対ポリシー最適化(GRPO)の致命的な欠陥を同定する。
フォーマルな定理証明のようなマルチサンプルのパフォーマンスを必要とするタスクに対しては、GRPOは既約解をバイアス的に強化し、稀だが正しい証明を無視する。
この暗黙バイアスは、大規模なサンプルサイズでのpass@N$メトリクスのパフォーマンスを損なう。
この問題に対処するために、稀な正解の強化を明示的に促す単純な方法である異例の報酬を導入する。
さらに、PPOエポックの数が増加すると、このバイアスはさらに軽減される。
実験により, 差分報酬を組み込むことで, N の範囲でパス@N$ が大幅に向上し, 標準 GRPO よりも優れ, サンプルの多様性が著しく向上することが確認された。
改訂されたレシピをLeanに適用し、MiniF2F-testベンチマークでDeepSeek-Prover-V1.5-RLと競合するパフォーマンスを実現しました。
我々は、RLを用いて形式定理の証明者を訓練するための、単純で効果的なレシピを提供する実装をリリースする。
関連論文リスト
- Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective [6.069069082518759]
大規模言語モデル(LLM)の強化学習におけるゼロ・リワード推定について検討する。
反応レベル報酬モデルのみを用いて、真で未知のトークンレベルの報酬に基づくポリシー勾配を不偏に推定できることを示す。
我々は,新しいアルゴリズム,Token-Reinforced Policy Optimization (TRePO)を提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:31Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
新たなフレームワークは、集中した思考と深い報酬の粒度による視覚的推論を強化する。
我々は,高情報密度のトークンを優先するトークン重み付け機構を採用している。
シングルチョイスからマルチチョイスQAタスクにシフトすることで、RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Accelerating RLHF Training with Reward Variance Increase [5.330219278966635]
人間からのフィードバックからの強化学習(RLHF)は、学習後の段階において、大きな言語モデル(LLM)が人間の価値観や嗜好と一致していることを保証するための重要な技術である。
本稿では,報酬分散を良好に増加させ,相対的な選好報酬期待値を維持することで,成功度HFトレーニングを加速する報奨調整モデルを提案する。
論文 参考訳(メタデータ) (2025-05-29T08:54:06Z) - Spectral Policy Optimization: Coloring your Incorrect Reasoning in GRPO [21.369307672809366]
グループ相対政策最適化(GRPO)は、グループ内のすべてのサンプル応答が正しくない場合に停止する。
GRPOにおける全負サンプルグループ内の応答多様性をAIフィードバックを用いて導入するフレームワークを提案する。
提案手法を実証的に検証し,様々なモデルサイズにまたがる性能向上を示す。
論文 参考訳(メタデータ) (2025-05-16T18:02:05Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models [13.313186665410486]
リワード微調整は、ファンデーションモデルを下流の目標と整合させるための有望なアプローチとして現れています。
既存の報酬微調整手法は、大規模なプロンプトデータセットにおける不安定性によって制限される。
拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするためのPRDP(Proximal Reward difference Prediction)を提案する。
論文 参考訳(メタデータ) (2024-02-13T18:58:16Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。