論文の概要: EDGE-GRPO: Entropy-Driven GRPO with Guided Error Correction for Advantage Diversity
- arxiv url: http://arxiv.org/abs/2507.21848v1
- Date: Tue, 29 Jul 2025 14:23:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.466042
- Title: EDGE-GRPO: Entropy-Driven GRPO with Guided Error Correction for Advantage Diversity
- Title(参考訳): EDGE-GRPO:アドバンテージ多様性のためのガイド付きエラー補正を備えたエントロピー駆動型GRPO
- Authors: Xingjian Zhang, Siwei Wen, Wenjun Wu, Lei Huang,
- Abstract要約: グループ相対政策最適化 (GRPO) アルゴリズムはスパース報酬規則に依存しており、有利な崩壊問題を引き起こす。
我々は,textbfEntropy-textbfDriven Advantage と textbfGuided textbfError Correction を採用したEDGE-GRPOアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 7.818698554631196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have made remarkable progress in enhancing step-by-step reasoning through reinforcement learning. However, the Group Relative Policy Optimization (GRPO) algorithm, which relies on sparse reward rules, often encounters the issue of identical rewards within groups, leading to the advantage collapse problem. Existing works typically address this challenge from two perspectives: enforcing model reflection to enhance response diversity, and introducing internal feedback to augment the training signal (advantage). In this work, we begin by analyzing the limitations of model reflection and investigating the policy entropy of responses at the fine-grained sample level. Based on our experimental findings, we propose the EDGE-GRPO algorithm, which adopts \textbf{E}ntropy-\textbf{D}riven Advantage and \textbf{G}uided \textbf{E}rror Correction to effectively mitigate the problem of advantage collapse. Extensive experiments on several main reasoning benchmarks demonstrate the effectiveness and superiority of our approach. It is available at https://github.com/ZhangXJ199/EDGE-GRPO.
- Abstract(参考訳): 大規模言語モデル(LLM)は、強化学習を通じてステップバイステップの推論を強化している。
しかし、粗末な報酬規則に依存するグループ相対政策最適化(GRPO)アルゴリズムは、しばしばグループ内で同じ報酬の問題に遭遇し、有利な崩壊問題を引き起こす。
既存の作業は、応答の多様性を高めるためにモデルリフレクションを強制すること、トレーニング信号(アドバンテージ)を強化するために内部フィードバックを導入すること、という2つの視点から、この課題に対処するのが一般的である。
本研究では,モデル反射の限界を解析し,詳細なサンプルレベルでの応答のポリシーエントロピーを調べることから始める。
実験結果に基づいて, EDGE-GRPOアルゴリズムを提案する。このアルゴリズムは, 利点崩壊の問題を効果的に緩和するために, \textbf{E}ntropy-\textbf{D}riven Advantage と \textbf{G}uided \textbf{E}rror Correction を採用する。
いくつかの主要な推論ベンチマークに関する大規模な実験は、我々のアプローチの有効性と優位性を示している。
https://github.com/ZhangXJ199/EDGE-GRPOで入手できる。
関連論文リスト
- Multi-Layer GRPO: Enhancing Reasoning and Self-Correction in Large Language Models [3.0763741715155666]
我々は,MGRPO(Multi-layer GRPO)を提案する。
MGRPOは標準GRPOを著しく上回り、推論能力と自己補正能力の両方を育成することで優れた性能を達成する。
論文 参考訳(メタデータ) (2025-06-05T08:27:34Z) - Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening [36.81125165911328]
強化学習は、言語モデルの推論能力を改善する主要な要因として現れています。
本稿では,現在の強化学習アルゴリズムが,すでに解いている問題に関するベースモデルの分布を単に研ぎ澄ましているだけかどうかを考察する。
差分報酬はランクバイアスを緩和し、合成定理と実定理の両方の証明設定において、多種多様な$N$でpass@N$を改善することを示す。
論文 参考訳(メタデータ) (2025-06-03T01:15:15Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。