論文の概要: Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening
- arxiv url: http://arxiv.org/abs/2506.02355v1
- Date: Tue, 03 Jun 2025 01:15:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.188564
- Title: Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening
- Title(参考訳): 違い: GRPO を分散シャープ化を超えてリワードする
- Authors: Andre He, Daniel Fried, Sean Welleck,
- Abstract要約: 我々は、稀な正解の強化を明示的に促す単純な方法である異例の報酬を導入する。
実験により、不規則な報酬を組み込むことで、Nの広い範囲にわたるpass@$N$が大幅に改善されることが確認された。
改訂されたレシピをLeanに適用し、MiniF2F-testベンチマークでDeepSeek-Prover-V1.5-RLと競合するパフォーマンスを実現しました。
- 参考スコア(独自算出の注目度): 36.81125165911328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has emerged as an effective framework for training large language models on structured language-conditioned tasks. We identify a critical flaw of Group Relative Policy Optimization (GRPO), a widely used RL algorithm in this setting. For tasks that require multi-sample performance, such as formal theorem proving, GRPO biasedly reinforces already probable solutions and neglects rare but correct proofs. This implicit bias impairs performance on pass@$N$ metrics at large sample sizes, limiting its practicality for training theorem provers. To address this, we introduce the unlikeliness reward, a straightforward method that explicitly encourages reinforcing rare correct solutions. Additionally, we find that increasing the number of PPO epochs further mitigates this bias. Our experiments confirm that incorporating the unlikeliness reward significantly improves pass@$N$ across a large range of N, outperforming standard GRPO and substantially increasing sample diversity. Applying our revised recipe to Lean, we achieve competitive performance with DeepSeek-Prover-V1.5-RL on the miniF2F-test benchmark. We release our implementation, providing a simple yet effective recipe for training formal theorem provers with RL.
- Abstract(参考訳): 強化学習は、構造化言語条件タスクにおいて、大規模言語モデルを訓練するための効果的なフレームワークとして登場した。
この設定で広く使われているRLアルゴリズムであるグループ相対ポリシー最適化(GRPO)の致命的な欠陥を同定する。
フォーマルな定理証明のようなマルチサンプルのパフォーマンスを必要とするタスクに対しては、GRPOは既約解をバイアス的に強化し、稀だが正しい証明を無視する。
この暗黙バイアスは、大規模なサンプルサイズでのpass@N$メトリクスのパフォーマンスを損なう。
この問題に対処するために、稀な正解の強化を明示的に促す単純な方法である異例の報酬を導入する。
さらに、PPOエポックの数が増加すると、このバイアスはさらに軽減される。
実験により, 差分報酬を組み込むことで, N の範囲でパス@N$ が大幅に向上し, 標準 GRPO よりも優れ, サンプルの多様性が著しく向上することが確認された。
改訂されたレシピをLeanに適用し、MiniF2F-testベンチマークでDeepSeek-Prover-V1.5-RLと競合するパフォーマンスを実現しました。
我々は、RLを用いて形式定理の証明者を訓練するための、単純で効果的なレシピを提供する実装をリリースする。
関連論文リスト
- ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided Reinforcement Learning [12.83211408922535]
強化学習スタイルのポストトレーニングは、報酬や選好信号に基づいてモデル出力を最適化することで推論を改善する。
GRPOスタイルのアプローチでは、結果ベースの検証によってラベル付けされた自己生成サンプルを使用することでこれを実装している。
提案手法は, 基本的回答を条件に, 単純でモジュール化されたフレームワークである。
論文 参考訳(メタデータ) (2025-07-03T17:44:55Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective [6.069069082518759]
大規模言語モデル(LLM)の強化学習におけるゼロ・リワード推定について検討する。
反応レベル報酬モデルのみを用いて、真で未知のトークンレベルの報酬に基づくポリシー勾配を不偏に推定できることを示す。
我々は,新しいアルゴリズム,Token-Reinforced Policy Optimization (TRePO)を提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:31Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [43.310209758380886]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
新たなフレームワークは、集中した思考と深い報酬の粒度による視覚的推論を強化する。
我々は,高情報密度のトークンを優先するトークン重み付け機構を採用している。
シングルチョイスからマルチチョイスQAタスクにシフトすることで、RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Accelerating RLHF Training with Reward Variance Increase [5.330219278966635]
人間からのフィードバックからの強化学習(RLHF)は、学習後の段階において、大きな言語モデル(LLM)が人間の価値観や嗜好と一致していることを保証するための重要な技術である。
本稿では,報酬分散を良好に増加させ,相対的な選好報酬期待値を維持することで,成功度HFトレーニングを加速する報奨調整モデルを提案する。
論文 参考訳(メタデータ) (2025-05-29T08:54:06Z) - Spectral Policy Optimization: Coloring your Incorrect Reasoning in GRPO [21.369307672809366]
グループ相対政策最適化(GRPO)は、グループ内のすべてのサンプル応答が正しくない場合に停止する。
GRPOにおける全負サンプルグループ内の応答多様性をAIフィードバックを用いて導入するフレームワークを提案する。
提案手法を実証的に検証し,様々なモデルサイズにまたがる性能向上を示す。
論文 参考訳(メタデータ) (2025-05-16T18:02:05Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models [13.313186665410486]
リワード微調整は、ファンデーションモデルを下流の目標と整合させるための有望なアプローチとして現れています。
既存の報酬微調整手法は、大規模なプロンプトデータセットにおける不安定性によって制限される。
拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするためのPRDP(Proximal Reward difference Prediction)を提案する。
論文 参考訳(メタデータ) (2024-02-13T18:58:16Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。