論文の概要: Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening
- arxiv url: http://arxiv.org/abs/2506.02355v2
- Date: Fri, 20 Jun 2025 04:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 14:57:52.184699
- Title: Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening
- Title(参考訳): 違い: GRPO を分散シャープ化を超えてリワードする
- Authors: Andre He, Daniel Fried, Sean Welleck,
- Abstract要約: 強化学習は、言語モデルの推論能力を改善する主要な要因として現れています。
本稿では,現在の強化学習アルゴリズムが,すでに解いている問題に関するベースモデルの分布を単に研ぎ澄ましているだけかどうかを考察する。
差分報酬はランクバイアスを緩和し、合成定理と実定理の両方の証明設定において、多種多様な$N$でpass@N$を改善することを示す。
- 参考スコア(独自算出の注目度): 36.81125165911328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning is emerging as a primary driver for improving language model reasoning capabilities. A fundamental question is whether current reinforcement learning algorithms -- such as Group Relative Policy Optimization (GRPO), the de facto standard algorithm used to improve language model reasoning -- merely sharpen the base model's distribution around problems it can already solve. We investigate this question in the context of formal theorem proving, which has access to a perfect verifier. We identify a degenerate rank bias in GRPO in which highly probable trajectories are reinforced and rare ones are neglected. This results in distribution sharpening: the model can solve some problems with fewer samples, but underperforms simply sampling more solutions from the original model. To overcome GRPO's rank bias we introduce unlikeliness reward, a simple method for explicitly up-weighting rare but correct solutions. We show that unlikeliness reward mitigates rank bias and improves pass@$N$ across a large range of $N$ in both synthetic and real theorem proving settings. We also uncover an unexpected link between rank bias and a seemingly mundane hyperparameter -- the number of updates per batch -- that leads to a second, complementary mitigation. We combine our insights into a revised GRPO training recipe for formal theorem proving, yielding an open pipeline that achieves competitive performance to DeepSeek-Prover-V1.5-RL on the miniF2F-test benchmark. We release our implementation at https://github.com/AndreHe02/rewarding-unlikely-release
- Abstract(参考訳): 強化学習は、言語モデルの推論能力を改善する主要な要因として現れています。
根本的な疑問は、言語モデルの推論を改善するために使われるデファクト標準アルゴリズムであるグループ相対ポリシー最適化(GRPO)のような現在の強化学習アルゴリズムが、既に解決できる問題に関するベースモデルの分布を絞るだけである。
完全検証器にアクセス可能な形式定理証明の文脈において、この問題を考察する。
GRPOでは、高い確率軌道が強化され、稀な軌道が無視される縮退階級バイアスを同定する。
モデルはより少ないサンプルでいくつかの問題を解くことができるが、オリジナルのモデルからより多くの解をサンプリングするだけで性能が低下する。
GRPOのランクバイアスを克服するために、稀だが正しい解を明示的にアップウェイトする単純な方法である異性報酬を導入する。
差分報酬はランクバイアスを緩和し、合成定理と実定理の両方の証明設定において、多種多様な$N$でpass@N$を改善することを示す。
また、ランクバイアスと一見平凡なハイパーパラメーター(バッチ毎に更新される回数)の予期せぬリンクを発見し、これが第2の補完的な緩和につながります。
我々は,DeepSeek-Prover-V1.5-RLと競合する性能をミニF2F-testベンチマークで達成するオープンパイプラインを,フォーマルな定理証明のために改訂されたGRPOトレーニングレシピに組み合わせた。
https://github.com/AndreHe02/rewarding-unlikely-releaseで実装をリリースします。
関連論文リスト
- Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective [6.069069082518759]
大規模言語モデル(LLM)の強化学習におけるゼロ・リワード推定について検討する。
反応レベル報酬モデルのみを用いて、真で未知のトークンレベルの報酬に基づくポリシー勾配を不偏に推定できることを示す。
我々は,新しいアルゴリズム,Token-Reinforced Policy Optimization (TRePO)を提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:31Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
新たなフレームワークは、集中した思考と深い報酬の粒度による視覚的推論を強化する。
我々は,高情報密度のトークンを優先するトークン重み付け機構を採用している。
シングルチョイスからマルチチョイスQAタスクにシフトすることで、RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Accelerating RLHF Training with Reward Variance Increase [5.330219278966635]
人間からのフィードバックからの強化学習(RLHF)は、学習後の段階において、大きな言語モデル(LLM)が人間の価値観や嗜好と一致していることを保証するための重要な技術である。
本稿では,報酬分散を良好に増加させ,相対的な選好報酬期待値を維持することで,成功度HFトレーニングを加速する報奨調整モデルを提案する。
論文 参考訳(メタデータ) (2025-05-29T08:54:06Z) - Spectral Policy Optimization: Coloring your Incorrect Reasoning in GRPO [21.369307672809366]
グループ相対政策最適化(GRPO)は、グループ内のすべてのサンプル応答が正しくない場合に停止する。
GRPOにおける全負サンプルグループ内の応答多様性をAIフィードバックを用いて導入するフレームワークを提案する。
提案手法を実証的に検証し,様々なモデルサイズにまたがる性能向上を示す。
論文 参考訳(メタデータ) (2025-05-16T18:02:05Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models [13.313186665410486]
リワード微調整は、ファンデーションモデルを下流の目標と整合させるための有望なアプローチとして現れています。
既存の報酬微調整手法は、大規模なプロンプトデータセットにおける不安定性によって制限される。
拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするためのPRDP(Proximal Reward difference Prediction)を提案する。
論文 参考訳(メタデータ) (2024-02-13T18:58:16Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。