論文の概要: Multi-Layer GRPO: Enhancing Reasoning and Self-Correction in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.04746v1
- Date: Thu, 05 Jun 2025 08:27:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.603167
- Title: Multi-Layer GRPO: Enhancing Reasoning and Self-Correction in Large Language Models
- Title(参考訳): 多層GRPO:大規模言語モデルにおける推論と自己補正の強化
- Authors: Fei Ding, Baiqiao Wang, Zijian Zeng, Youwei Wang,
- Abstract要約: 我々は,MGRPO(Multi-layer GRPO)を提案する。
MGRPOは標準GRPOを著しく上回り、推論能力と自己補正能力の両方を育成することで優れた性能を達成する。
- 参考スコア(独自算出の注目度): 3.0763741715155666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Group Relative Policy Optimization (GRPO) algorithm has demonstrated considerable success in enhancing the reasoning capabilities of large language models (LLMs), as evidenced by DeepSeek-R1. However, the absence of intermediate supervision in GRPO frequently leads to inefficient exploration dynamics. A single error in a complex reasoning chain can invalidate the entire solution, resulting in abrupt reward vanishing and compromising training stability.To address these challenges, we propose MGRPO (Multi-layer GRPO). MGRPO operates in two layers: the first layer employs standard GRPO to generate an initial response. This response, along with the original query, is then fed into a second-layer GRPO process. This second layer is specifically trained to identify and correct errors in the initial response, effectively creating a self-correction loop. This mechanism provides implicit process-level supervision by rewarding successful error correction, without requiring an explicit, densely-annotated reward model. Experimental results on several mathematical reasoning benchmarks demonstrate that MGRPO significantly outperforms standard GRPO, achieving superior performance by fostering both reasoning and self-correction abilities.
- Abstract(参考訳): Group Relative Policy Optimization (GRPO)アルゴリズムは、DeepSeek-R1で証明されているように、大規模言語モデル(LLM)の推論能力を高める上で大きな成功を収めている。
しかし、GRPOにおける中間的監督の欠如は、しばしば非効率な探索力学に繋がる。
複雑な推論チェーン内の1つのエラーは解全体を無効にし、その結果、突然の報酬が消滅し、トレーニング安定性を損なう。
第1層は標準のGRPOを使用して初期応答を生成する。
このレスポンスは、元のクエリとともに、2層目のGRPOプロセスに送られます。
この第2のレイヤは、初期応答におけるエラーを特定し、修正するように特別に訓練され、効果的に自己補正ループを生成する。
このメカニズムは、明示的で密度の高い報酬モデルを必要とすることなく、エラー修正を成功させることで、暗黙のプロセスレベルの監視を提供する。
いくつかの数学的推論ベンチマークによる実験結果から、MGRPOは標準GRPOよりも著しく優れており、推論能力と自己補正能力の両方を育むことにより、優れた性能を発揮することが示された。
関連論文リスト
- Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening [36.81125165911328]
我々は、稀な正解の強化を明示的に促す単純な方法である異例の報酬を導入する。
実験により、不規則な報酬を組み込むことで、Nの広い範囲にわたるpass@$N$が大幅に改善されることが確認された。
改訂されたレシピをLeanに適用し、MiniF2F-testベンチマークでDeepSeek-Prover-V1.5-RLと競合するパフォーマンスを実現しました。
論文 参考訳(メタデータ) (2025-06-03T01:15:15Z) - VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。
トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。
我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文 参考訳(メタデータ) (2025-05-25T06:41:28Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - GRPO-LEAD: A Difficulty-Aware Reinforcement Learning Approach for Concise Mathematical Reasoning in Language Models [0.17265013728931003]
GRPO-LEADは数学的推論に適した新しい拡張セットである。
本研究は,(1)正確で正確な解法を奨励する長さ依存的精度報酬,(2)誤った答えを判断境界を鋭くするための明示的なペナルティメカニズム,(3)困難問題に対する学習シグナルを増幅する難易度の高い優位性再重み付け戦略を導入する。
論文 参考訳(メタデータ) (2025-04-13T19:07:45Z) - Rethinking Model Selection and Decoding for Keyphrase Generation with
Pre-trained Sequence-to-Sequence Models [76.52997424694767]
キーフレーズ生成(英: Keyphrase Generation, KPG)は、NLPにおける長年の課題である。
Seq2seq 事前訓練言語モデル (PLM) は KPG に転換期を迎え、有望な性能改善をもたらした。
本稿では, PLM に基づく KPG におけるモデル選択と復号化戦略の影響について, 系統解析を行った。
論文 参考訳(メタデータ) (2023-10-10T07:34:45Z) - AGRO: Adversarial Discovery of Error-prone groups for Robust
Optimization [109.91265884632239]
群分散ロバスト最適化(G-DRO)は、トレーニングデータに対する事前定義されたグループのセットに対する最悪の損失を最小限にすることができる。
本稿では、分散ロバスト最適化のためのAGRO -- Adversarial Group Discoveryを提案する。
AGROは、既知の最悪のグループの平均モデルパフォーマンスを8%向上させる。
論文 参考訳(メタデータ) (2022-12-02T00:57:03Z) - Group Distributionally Robust Reinforcement Learning with Hierarchical
Latent Variables [20.078557260741988]
Group Distributionally Robust Markov Decision Process (GDR-MDP) は、潜在混合モデルを介してタスク群を符号化する柔軟な階層型 MDP の定式化である。
GDR-MDPは、タスクグループに対する最悪の有資格信念の下で、期待されるリターンを最大化する最適なポリシーを特定する。
そこで我々は,GDR-MDPにおける値ベースおよびポリシーベースのRL手法の深部RLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-21T21:34:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。