論文の概要: Prompt Augmentation Scales up GRPO Training on Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2602.03190v2
- Date: Thu, 05 Feb 2026 16:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 16:28:44.939452
- Title: Prompt Augmentation Scales up GRPO Training on Mathematical Reasoning
- Title(参考訳): Prompt Augmentation Scales up GRPO Training on Mathematical Reasoning
- Authors: Wenquan Lu, Hai Huang, Randall Balestriero,
- Abstract要約: 我々は、さまざまなテンプレートやフォーマットの下で推論トレースを生成するようにモデルに指示するトレーニング戦略である、プロンプト拡張を導入する。
我々は、KL正規化項がなければ、プロンプト拡張により、一定のデータセット下でのトレーニング期間の安定したスケーリングが可能になることを示す。
Qwen2.5-Math-1.5Bモデルでは、MATH Level 3-5データセットの迅速な拡張により、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 19.22530791401551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning algorithms such as group-relative policy optimization (GRPO) have demonstrated strong potential for improving the mathematical reasoning capabilities of large language models. However, prior work has consistently observed an entropy collapse phenomenon during reinforcement post-training, characterized by a monotonic decrease in policy entropy that ultimately leads to training instability and collapse. As a result, most existing approaches restrict training to short horizons (typically 5-20 epochs), limiting sustained exploration and hindering further policy improvement. In addition, nearly all prior work relies on a single, fixed reasoning prompt or template during training. In this work, we introduce prompt augmentation, a training strategy that instructs the model to generate reasoning traces under diverse templates and formats, thereby increasing rollout diversity. We show that, without a KL regularization term, prompt augmentation enables stable scaling of training duration under a fixed dataset and allows the model to tolerate low-entropy regimes without premature collapse. Empirically, a Qwen2.5-Math-1.5B model trained with prompt augmentation on the MATH Level 3-5 dataset achieves state-of-the-art performance, reaching 45.2 per-benchmark accuracy and 51.8 per-question accuracy on standard mathematical reasoning benchmarks, including AIME24, AMC, MATH500, Minerva, and OlympiadBench. The code and model checkpoints are available at https://github.com/wenquanlu/prompt-augmentation-GRPO.
- Abstract(参考訳): グループ相対ポリシー最適化(GRPO)のような強化学習アルゴリズムは、大規模言語モデルの数学的推論能力を改善する強力な可能性を示している。
しかし、先行研究は、強化後訓練中にエントロピー崩壊現象を継続的に観察しており、最終的にはトレーニング不安定と崩壊につながる政策エントロピーの単調な減少が特徴である。
その結果、既存のほとんどのアプローチは訓練を短い地平線(典型的には5-20エポック)に制限し、持続的な探査を制限し、さらなる政策改善を妨げている。
さらに、以前の作業のほとんどすべてが、トレーニング中に1つの固定された推論プロンプトやテンプレートに依存しています。
本研究では,多種多様なテンプレートやフォーマット下での推論トレースの生成をモデルに指示し,ロールアウトの多様性を高める訓練戦略であるプロンプト拡張を導入する。
KL正則化項がなければ、プロンプト増強により、一定のデータセット下でのトレーニング期間の安定的なスケーリングが可能になり、モデルが早期崩壊を伴わずに低エントロピーレギュレーションを許容できることが示される。
実証的に、Qwen2.5-Math-1.5BモデルはMATH Level 3-5データセットの迅速な拡張で訓練され、AIME24、AMC、MATH500、Minerva、OlympiadBenchなどの標準的な数学的推論ベンチマークにおいて、ベンチマーク毎の45.2の精度と51.8の精度を達成した。
コードとモデルチェックポイントはhttps://github.com/wenquanlu/prompt-augmentation-GRPO.comで公開されている。
関連論文リスト
- MSign: An Optimizer Preventing Training Instability in Large Language Models via Stable Rank Restoration [48.446476072756276]
トレーニング不安定性は、大規模言語モデルの事前トレーニングにおいて依然として重要な課題である。
我々は,5MナノGPTモデルにおけるトレーニング失敗をP$で評価した。
安定なランクを回復するために行列手演算を周期的に適用する新しいノルムであるMSignを提案する。
論文 参考訳(メタデータ) (2026-02-02T07:18:45Z) - DISPO: Enhancing Training Efficiency and Stability in Reinforcement Learning for Large Language Model Mathematical Reasoning [31.369103012768964]
DISPOは単純だが効果的なREINFORCEスタイルのアルゴリズムで、正しい反応と間違った反応のために重要なサンプリング重量の上昇と下降を分離する。
DISPO は AIME'24 (55.42% CISPO と 50.21% DAPO) で 61.04% を達成することを示す。
論文 参考訳(メタデータ) (2026-02-01T02:45:04Z) - JustRL: Scaling a 1.5B LLM with a Simple RL Recipe [45.42398283391072]
単段トレーニングは、2つの1.5B推論モデルで最先端のパフォーマンスを達成する。
トレーニングは、通常介入を動機づける崩壊や台地を伴わない4000以上のステップに対して、滑らかで単調な改善を示す。
論文 参考訳(メタデータ) (2025-12-18T15:21:25Z) - Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning [49.290631188365786]
Scaf-GRPOは、モデルの独立した学習が停滞した時に介入するトレーニングフレームワークである。
これはQwen2.5-Math-7Bモデルのパス@1スコアを、バニラGRPOベースラインよりも44.3%向上させる。
この結果から、我々のフレームワークは、それまで到達範囲を超えていた問題を解決するモデルの能力を解き放つ、堅牢で効果的な方法論を提供することを示した。
論文 参考訳(メタデータ) (2025-10-22T17:41:30Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - ResT: Reshaping Token-Level Policy Gradients for Tool-Use Large Language Models [62.82372407840088]
大規模言語モデル(LLM)は受動的生成を超越し、外部ツールを呼び出すことで目標指向エージェントとして機能する。
textbfReshaped textbfToken-level policy gradients (textbfResT) for tool-use task。
textbfResTは最先端の結果を達成し、以前のメソッドを最大8.76%$で上回っている。
論文 参考訳(メタデータ) (2025-09-26T03:38:27Z) - Mind the Gap: Data Rewriting for Stable Off-Policy Supervised Fine-Tuning [33.899779762210976]
大規模言語モデルの教師付き微調整(SFT)は、非政治的な学習問題と見なすことができる。
既存の方法では、ギャップを積極的に減らすのではなく、パッシブに更新するKLペナルティやクリッピングによってこの問題を軽減する。
本稿では,トレーニング前の政策ギャップを積極的に縮小する,シンプルで効果的なデータ書き換えフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-18T17:02:30Z) - Reasoning through Exploration: A Reinforcement Learning Framework for Robust Function Calling [35.97270347306353]
グループ相対政策最適化(GRPO)に基づく新しいRLフレームワークである textbfEGPO を提案する。
EGPOの中核はエントロピー強化の利点関数であり、モデルのChain-of-Thought(CoT)のエントロピーをポリシー勾配に統合する。
挑戦的なBFCL(Berkeley Function Calling Leaderboard)では、EGPOでトレーニングされた4Bパラメータモデルが、同等サイズのモデルの間で新たな最先端を設定している。
論文 参考訳(メタデータ) (2025-08-07T07:51:38Z) - On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文 参考訳(メタデータ) (2025-05-29T15:58:04Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。