論文の概要: Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning
- arxiv url: http://arxiv.org/abs/2510.19807v1
- Date: Wed, 22 Oct 2025 17:41:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.241039
- Title: Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning
- Title(参考訳): Scaf-GRPO:LLM推論の強化のためのScaffolded Group Relative Policy Optimization
- Authors: Xichen Zhang, Sitong Wu, Yinghao Zhu, Haoru Tan, Shaozuo Yu, Ziyi He, Jiaya Jia,
- Abstract要約: Scaf-GRPOは、モデルの独立した学習が停滞した時に介入するトレーニングフレームワークである。
これはQwen2.5-Math-7Bモデルのパス@1スコアを、バニラGRPOベースラインよりも44.3%向上させる。
この結果から、我々のフレームワークは、それまで到達範囲を超えていた問題を解決するモデルの能力を解き放つ、堅牢で効果的な方法論を提供することを示した。
- 参考スコア(独自算出の注目度): 49.290631188365786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning from verifiable rewards has emerged as a powerful technique for enhancing the complex reasoning abilities of Large Language Models (LLMs). However, these methods are fundamentally constrained by the ''learning cliff'' phenomenon: when faced with problems far beyond their current capabilities, models consistently fail, yielding a persistent zero-reward signal. In policy optimization algorithms like GRPO, this collapses the advantage calculation to zero, rendering these difficult problems invisible to the learning gradient and stalling progress. To overcome this, we introduce Scaf-GRPO (Scaffolded Group Relative Policy Optimization), a progressive training framework that strategically provides minimal guidance only when a model's independent learning has plateaued. The framework first diagnoses learning stagnation and then intervenes by injecting tiered in-prompt hints, ranging from abstract concepts to concrete steps, enabling the model to construct a valid solution by itself. Extensive experiments on challenging mathematics benchmarks demonstrate Scaf-GRPO's effectiveness, boosting the pass@1 score of the Qwen2.5-Math-7B model on the AIME24 benchmark by a relative 44.3% over a vanilla GRPO baseline. This result demonstrates our framework provides a robust and effective methodology for unlocking a model's ability to solve problems previously beyond its reach, a critical step towards extending the frontier of autonomous reasoning in LLM.
- Abstract(参考訳): 検証可能な報酬からの強化学習は、Large Language Models (LLMs) の複雑な推論能力を高める強力な手法として登場した。
しかし、これらの手法は基本的に'ラーニング崖'現象によって制約されており、現在の能力を超える問題に直面した場合、モデルは一貫して失敗し、永続的なゼロ・リワード信号を生成する。
GRPOのようなポリシー最適化アルゴリズムでは、このアルゴリズムは利点計算をゼロに分解し、これらの難しい問題を学習の勾配や停滞の進行に見えないものにする。
これを解決するために,モデルの独立した学習が停滞した場合にのみ,最小限のガイダンスを戦略的に提供するプログレッシブトレーニングフレームワークであるScaf-GRPO(Scaffolded Group Relative Policy Optimization)を紹介した。
このフレームワークはまず学習の停滞を診断し、抽象概念から具体的なステップまで、タイアップされたインプロンプトを注入することで介入し、モデル自身で有効なソリューションを構築することができる。
挑戦的な数学ベンチマークに関する大規模な実験では、Scof-GRPOの有効性が示され、Qwen2.5-Math-7BモデルのQwen2.5-Math-7Bモデルのパス@1スコアがバニラGRPOベースラインよりも44.3%向上した。
この結果は,LLMにおける自律推論のフロンティアを拡大するための重要なステップである,リーチ以上の問題を解決するモデルの能力を解放するための,堅牢で効果的な方法論を提供することを示す。
関連論文リスト
- HINT: Helping Ineffective Rollouts Navigate Towards Effectiveness [49.72591739116668]
強化学習(RL)は、大規模言語モデル(LLM)の長いチェーン・オブ・シント(CoT)推論能力を高めるための重要な要因となっている。
しかし、GRPOのような一般的な手法は、タスクの難しさがモデルの能力を超えると失敗し、スパーシリティと非効率なトレーニングに報いる。
我々は、適応的なヒントフレームワークであるHINT: Helping In Effective Rollouts Navigate Towards Effectiveを提案する。
論文 参考訳(メタデータ) (2025-10-10T13:42:03Z) - DARO: Difficulty-Aware Reweighting Policy Optimization [18.07946696398167]
RLVR(Reinforcement Learning with Verifiable Rewards)の事実上のアプローチとしてグループ相対政策最適化(GRPO)が登場した。
サンプルの難易度に結びついた静的あるいは過度に単純化された重み付けスキームへの依存が、モデルの進化する機能への適応を妨げていることを示す統一ビューを提供する。
本稿では,bfbfDifficulty-Aware Reweighting Policy Optimization (DARO)を紹介する。
論文 参考訳(メタデータ) (2025-10-10T04:57:15Z) - Reasoning through Exploration: A Reinforcement Learning Framework for Robust Function Calling [35.97270347306353]
グループ相対政策最適化(GRPO)に基づく新しいRLフレームワークである textbfEGPO を提案する。
EGPOの中核はエントロピー強化の利点関数であり、モデルのChain-of-Thought(CoT)のエントロピーをポリシー勾配に統合する。
挑戦的なBFCL(Berkeley Function Calling Leaderboard)では、EGPOでトレーニングされた4Bパラメータモデルが、同等サイズのモデルの間で新たな最先端を設定している。
論文 参考訳(メタデータ) (2025-08-07T07:51:38Z) - LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization [48.91511514636768]
長長適応ポリシー最適化は、理論的長さ制御を外部制約から本質的なモデル能力に変換する。
LAPOは、2段階の強化学習プロセスを通じて適切な推論深度を理解することができる。
数学的推論ベンチマークの実験では、LAPOはトークンの使用量を最大40.9%削減し、精度は2.3%向上した。
論文 参考訳(メタデータ) (2025-07-21T16:14:41Z) - ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided Reinforcement Learning [12.83211408922535]
強化学習スタイルのポストトレーニングは、報酬や選好信号に基づいてモデル出力を最適化することで推論を改善する。
GRPOスタイルのアプローチでは、結果ベースの検証によってラベル付けされた自己生成サンプルを使用することでこれを実装している。
提案手法は, 基本的回答を条件に, 単純でモジュール化されたフレームワークである。
論文 参考訳(メタデータ) (2025-07-03T17:44:55Z) - Training Large Language Models to Reason via EM Policy Gradient [0.27195102129094995]
LLM推論を強化するために、政治以外の強化学習アルゴリズムEM Policy Gradientを導入する。
GSM8KとMATH(HARD)データセットに対するEM Policy Gradientの有効性を評価する。
本手法で微調整したモデルでは, サブプロブレム分解, 自己検証, バックトラッキングなどの認知行動を示す。
論文 参考訳(メタデータ) (2025-04-24T01:31:05Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。