論文の概要: iGRPO: Self-Feedback-Driven LLM Reasoning
- arxiv url: http://arxiv.org/abs/2602.09000v1
- Date: Mon, 09 Feb 2026 18:45:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.430434
- Title: iGRPO: Self-Feedback-Driven LLM Reasoning
- Title(参考訳): iGRPO: 自己フィードバック駆動型LLM推論
- Authors: Ali Hatamizadeh, Shrimai Prabhumoye, Igor Gitman, Ximing Lu, Seungju Han, Wei Ping, Yejin Choi, Jan Kautz,
- Abstract要約: 大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
- 参考スコア(独自算出の注目度): 88.83313431248473
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) have shown promise in solving complex mathematical problems, yet they still fall short of producing accurate and consistent solutions. Reinforcement Learning (RL) is a framework for aligning these models with task-specific rewards, improving overall quality and reliability. Group Relative Policy Optimization (GRPO) is an efficient, value-function-free alternative to Proximal Policy Optimization (PPO) that leverages group-relative reward normalization. We introduce Iterative Group Relative Policy Optimization (iGRPO), a two-stage extension of GRPO that adds dynamic self-conditioning through model-generated drafts. In Stage 1, iGRPO samples multiple exploratory drafts and selects the highest-reward draft using the same scalar reward signal used for optimization. In Stage 2, it appends this best draft to the original prompt and applies a GRPO-style update on draft-conditioned refinements, training the policy to improve beyond its strongest prior attempt. Under matched rollout budgets, iGRPO consistently outperforms GRPO across base models (e.g., Nemotron-H-8B-Base-8K and DeepSeek-R1 Distilled), validating its effectiveness on diverse reasoning benchmarks. Moreover, applying iGRPO to OpenReasoning-Nemotron-7B trained on AceReason-Math achieves new state-of-the-art results of 85.62\% and 79.64\% on AIME24 and AIME25, respectively. Ablations further show that the refinement wrapper generalizes beyond GRPO variants, benefits from a generative judge, and alters learning dynamics by delaying entropy collapse. These results underscore the potential of iterative, self-feedback-based RL for advancing verifiable mathematical reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
強化学習(RL)は、これらのモデルをタスク固有の報酬と整合させ、全体的な品質と信頼性を向上させるためのフレームワークである。
グループ相対政策最適化(GRPO、Group Relative Policy Optimization)は、グループ相対報酬正規化を利用するPPO(Proximal Policy Optimization)に代わる、効率的で価値のない代替手段である。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
ステージ1では、iGRPOは複数の探索的ドラフトをサンプリングし、最適化に使用される同じスカラー報酬信号を使用して、最高逆ドラフトを選択する。
ステージ2では、この最高のドラフトを元のプロンプトに付加し、ドラフト条件付きリファインメントにGRPOスタイルの更新を適用し、最強の事前試みを超えて改善するためのポリシーを訓練する。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデル(例えばNemotron-H-8B-Base-8KとDeepSeek-R1 Distilled)で一貫して上回り、様々な推論ベンチマークでの有効性を検証する。
さらに、AceReason-MathでトレーニングされたOpenReasoning-Nemotron-7BにiGRPOを適用すると、AIME24とAIME25でそれぞれ85.62\%と79.64\%の新たな最先端結果が得られる。
アブレーションにより、精製ラッパーはGRPOの変種を超えて一般化され、生成的判断の恩恵を受け、エントロピー崩壊を遅らせることで学習力学を変化させることが示された。
これらの結果は、検証可能な数学的推論を進めるための反復的自己フィードバックベースのRLの可能性を強調している。
関連論文リスト
- TL-GRPO: Turn-Level RL for Reasoning-Guided Iterative Optimization [97.18886232580131]
大規模言語モデルは、ツール統合による複雑なタスクにおいて強力な推論能力を示している。
そこで我々はターンレベルグループサンプリングを行う軽量RLアルゴリズムであるTurn-Level GRPOを提案する。
論文 参考訳(メタデータ) (2026-01-23T06:21:33Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Adaptive-Boundary-Clipping GRPO: Ensuring Bounded Ratios for Stable and Generalizable Training [7.404779700134294]
Adaptive-Boundary-Clipping GRPO (ABC-GRPO) はオリジナルのGRPOフレームワークの非対称かつ適応的な改良である。
ABC-GRPOは数学的推論タスクにおける標準GRPOよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2026-01-07T13:04:52Z) - GRPO-RM: Fine-Tuning Representation Models via GRPO-Driven Reinforcement Learning [52.16150076582931]
我々は、表現モデル(GRPO-RM)のためのグループ相対ポリシー最適化を提案する。
我々の手法は,大規模言語モデル(LLM)におけるトークンシーケンスサンプリングを機能的に置き換えるための事前定義された出力セットを確立する。
特殊報酬関数は表現モデルの性質を満たすように設計されている。
論文 参考訳(メタデータ) (2025-11-19T09:19:39Z) - MURPHY: Multi-Turn GRPO for Self Correcting Code Generation [55.66642560374686]
Murphyは、トレーニング中に反復的な自己補正を導入することでGRPOを拡張するマルチターン反射最適化フレームワークである。
Murphy は GRPO に対して 8% の相対的な利得を達成し,同様の計算予算で性能を継続的に向上することを示す。
論文 参考訳(メタデータ) (2025-11-11T05:03:22Z) - Can GRPO Help LLMs Transcend Their Pretraining Origin? [42.200901132315636]
グループ相対政策最適化は、大規模言語モデル(LLM)の推論能力を高めるための主要なアプローチである
広く採用されているにもかかわらず、GRPOの利益はしばしば矛盾している。
GRPOはどの条件で推論を改善し、アウト・オブ・ディストリビューション(OOD)を一般化するのか?
まず、GRPOは基本モデルの分布に縛られ、完全に新しい解を見つけることができない保守的な再重み付けスキームであることを理論的に証明する。
論文 参考訳(メタデータ) (2025-10-14T00:37:52Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Multi-Layer GRPO: Enhancing Reasoning and Self-Correction in Large Language Models [3.0763741715155666]
我々は,MGRPO(Multi-layer GRPO)を提案する。
MGRPOは標準GRPOを著しく上回り、推論能力と自己補正能力の両方を育成することで優れた性能を達成する。
論文 参考訳(メタデータ) (2025-06-05T08:27:34Z) - Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO [22.00487909203855]
グループ相対ポリシー最適化は、グループ内のすべてのレスポンスが正しくない場合にポリシーを更新できない。
この制限は、人工知能と人間の知性の間に重要なギャップを浮き彫りにする。
グループ内に応答の多様性を取り入れることで、全負のサンプル問題を緩和するシンプルなフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-16T18:02:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。