論文の概要: Breaking $\textit{Winner-Takes-All}$: Cooperative Policy Optimization Improves Diverse LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.11461v2
- Date: Mon, 18 May 2026 07:36:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:45.606737
- Title: Breaking $\textit{Winner-Takes-All}$: Cooperative Policy Optimization Improves Diverse LLM Reasoning
- Title(参考訳): breaking $\textit{Winner-Takes-All}$: 協調的ポリシー最適化による横型LLM推論の改善
- Authors: Haoxuan Chen, Tianming Liang, Wei-Shi Zheng, Jian-Fang Hu,
- Abstract要約: グループ協力政策最適化は、トレーニングパラダイムをロールアウト競争からチーム協力へとシフトさせる。
GCPOは独立したロールアウトスコアをチームレベルのクレジット割り当てに置き換える。
チームへの平均的な限界貢献に従って、各ロールアウトに対して、グループチームの報酬を再分配する。
- 参考スコア(独自算出の注目度): 53.42577591449649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiers (RLVR) has become a central paradigm for improving LLM reasoning, yet popular group-based optimization algorithms like GRPO often suffer from exploration collapse, where the models prematurely converge on a narrow set of high-scoring patterns, lacking the ability to explore new solutions. Recent efforts attempt to alleviate this by adding entropy regularization or diversity bonus. However, these approaches do not change the \textit{winner-takes-all} nature, where rollouts still compete for individual advantage rather than cooperating for maximizing global diversity. In this work, we propose Group Cooperative Policy Optimization (GCPO), which shifts the training paradigm from rollout competition to team cooperation. Specifically, GCPO replaces independent rollout scoring with team-level credit assignment: a rollout is rewarded by how much it contributes to the team's valid solution coverage, rather than its individual accuracy. This coverage is described as a determinant volume over reward-weighted semantic embeddings, where only correct and non-redundant rollouts contribute to this volume. During advantage estimation, GCPO redistributes the collective team reward to each single rollout according to its average marginal contribution to the team. This cooperative training paradigm routes optimization toward non-redundant correct reasoning paths. Experiments across multiple reasoning benchmarks demonstrate that GCPO significantly improves both reasoning accuracy and solution diversity over existing approaches. Code will be released at https://github.com/bradybuddiemarch/gcpo.
- Abstract(参考訳): 検証器を用いた強化学習(RLVR)は、LLM推論を改善するための中心的なパラダイムとなっているが、GRPOのような一般的なグループベースの最適化アルゴリズムは、探索崩壊に悩まされることが多い。
近年の取り組みは、エントロピーの正規化や多様性のボーナスを追加することでこれを緩和しようとしている。
しかしながら、これらのアプローチは、グローバルな多様性を最大化するために協力するよりも、ロールアウトが個人の優位性を競うような、textit{winner-takes-all} の性質を変えない。
本研究では,トレーニングパラダイムをロールアウト競争からチーム協力に移行するグループ協調政策最適化(GCPO)を提案する。
特にGCPOは、独立したロールアウトスコアをチームレベルのクレジット割り当てに置き換えます。
このカバレッジは、報酬重み付けされたセマンティック埋め込みよりも決定的なボリュームとして説明され、正しいロールアウトと非冗長ロールアウトだけがこのボリュームに寄与する。
有利な見積もりでは、GCPOは、チームへの平均的な限界貢献に従って、各ロールアウトに対する集団チームの報酬を再分配します。
この協調訓練パラダイムは、非冗長な正しい推論経路へ最適化する。
複数の推論ベンチマークによる実験により、GCPOは既存のアプローチよりも推論精度と解の多様性の両方を著しく改善することが示された。
コードはhttps://github.com/bradybuddiemarch/gcpo.comでリリースされる。
関連論文リスト
- Where to Spend Rollouts: Hit-Utility Optimal Rollout Allocation for Group-Based RLVR [25.35547462790362]
グループベースのポリシー最適化手法は通常、各プロンプトに一定数のロールアウトを割り当てる。
我々は、ヒットユーティリティを導入し、提案されたプロンプトの追加アロケーションにおける少なくとも1つのロールアウトが正しいという後続の確率について紹介する。
本研究では,Hit-Utility Optimal Rollout Allocation (HORA)を提案する。
論文 参考訳(メタデータ) (2026-05-08T01:42:25Z) - Counterfactual Credit Policy Optimization for Multi-Agent Collaboration [27.260904103460664]
協調多エージェント大言語モデル(LLM)は、役割を分解し、多様な仮説を集約することで複雑な推論タスクを解くことができる。
本稿では,エージェント固有の学習信号を割り当てるフレームワークであるCCPOを紹介する。
CCPOは、エージェントのコントリビューションを除去して結果をシミュレートする動的反ファクト的ベースラインを構築する。
論文 参考訳(メタデータ) (2026-03-23T04:35:02Z) - When Right Meets Wrong: Bilateral Context Conditioning with Reward-Confidence Correction for GRPO [18.988527161000203]
グループ相対政策最適化(GRPO)は、推論モデルを訓練するための効果的な方法として登場した。
本稿では,GRPOの目的が正解率と正解率とのマージンを暗黙的に最大化することを示す。
本稿では,モデルが相互参照を成功させる機構であるバイラテラルコンテキストコンディショニング(BICC)を提案する。
論文 参考訳(メタデータ) (2026-03-13T16:25:02Z) - iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - The Peril of Preference: Why GRPO fails on Ordinal Rewards [0.8937905773981699]
我々は、この欠陥を解決する新しい定式化であるCoRPO(Correctness Relative Policy Optimization)を導入する。
CoRPOは適応ベースラインを使用し、最小品質の閾値を強制する。
コード検証タスクにおいて、CoRPOを実証的に検証し、より安定した収束とドメイン外一般化を実証する。
論文 参考訳(メタデータ) (2025-11-06T15:12:50Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。