論文の概要: ShapE-GRPO: Shapley-Enhanced Reward Allocation for Multi-Candidate LLM Training
- arxiv url: http://arxiv.org/abs/2603.29871v1
- Date: Tue, 31 Mar 2026 15:24:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.743154
- Title: ShapE-GRPO: Shapley-Enhanced Reward Allocation for Multi-Candidate LLM Training
- Title(参考訳): ShapE-GRPO:マルチカンジネートLDMトレーニングのためのシャプリー強化リワードアロケーション
- Authors: Rui Ai, Yu Pan, David Simchi-Levi, Chonghuan Wang,
- Abstract要約: 既存の強化学習のポストトレーニングパラダイムは、通常、セット内のすべての候補に同じセットレベルのスカラー報酬を割り当てる。
これにより、貧弱な候補者が一人の強い仲間が生み出す高い報酬を解放するノイズの多い訓練信号が導き出され、その結果、準最適探索に繋がる。
セットレベルのユーティリティの置換不変性を活用することにより、協調ゲーム理論からシェープリー強化の定式化を導出し、セットレベルの報酬を粒度、候補固有の信号に分解する。
- 参考スコア(独自算出の注目度): 17.817168693366916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In user-agent interaction scenarios such as recommendation, brainstorming, and code suggestion, Large Language Models (LLMs) often generate sets of candidate recommendations where the objective is to maximize the collective utility of the entire set rather than individual candidates independently. However, existing reinforcement learning post-training paradigms, such as Group Relative Policy Optimization (GRPO), typically assign the same set-level scalar reward to every candidate in the set. This leads to noisy training signals where poor candidates free-ride on the high reward produced by a single strong peer, resulting in suboptimal exploration. To address this, we propose Shapley-Enhanced GRPO (ShapE-GRPO). By leveraging the permutation-invariant nature of set-level utility, we derive a Shapley-enhanced formulation from cooperative game theory to decompose set-level rewards into granular, candidate-specific signals. We show that our formulation preserves the fundamental axioms of the Shapley value while remaining computationally efficient with polynomial-time complexity. Empirically, ShapE-GRPO consistently outperforms standard GRPO across diverse datasets with accelerated convergence during training.
- Abstract(参考訳): 推薦やブレインストーミング、コード提案といったユーザとエージェントのインタラクションシナリオでは、Large Language Models (LLM) は個別の候補ではなく、集合全体の集合的有用性を最大化することを目的とした候補レコメンデーションのセットを生成することが多い。
しかしながら、グループ相対政策最適化(GRPO)のような既存の強化学習ポストトレーニングパラダイムは、通常、セット内のすべての候補に同じセットレベルのスカラー報酬を割り当てる。
これにより、貧弱な候補者が一人の強い仲間が生み出す高い報酬を解放するノイズの多い訓練信号が導き出され、その結果、準最適探索に繋がる。
そこで我々は,Shapley-Enhanced GRPO (ShapE-GRPO)を提案する。
セットレベルのユーティリティの置換不変性を活用することにより、協調ゲーム理論からシェープリー強化の定式化を導出し、セットレベルの報酬を粒度、候補固有の信号に分解する。
我々の定式化は、多項式時間複雑性で計算効率を保ちながら、Shapley値の基本的な公理を保っていることを示す。
経験的に、ShapE-GRPOはトレーニング中に加速収束を伴う多様なデータセットで標準GRPOを一貫して上回る。
関連論文リスト
- Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment [13.085014101959118]
我々は、バッチ統計から有利な推定を分離する新しいアライメントフレームワークであるPersonalized GRPOを紹介する。
我々はP-GRPOを多種多様なタスクで評価し、標準のGRPOよりも高速な収束と高い報酬を達成することを発見した。
論文 参考訳(メタデータ) (2026-02-17T19:00:43Z) - iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - Owen-Shapley Policy Optimization (OSPO): A Principled RL Algorithm for Generative Search LLMs [12.75200353208858]
Owen-Shapley Policy Optimization (OSPO)は、トークンの成果に対する限界貢献に基づいて、シーケンスレベルの利点を再分配するフレームワークである。
付加的な計算を必要とする値モデルベースの方法とは異なり、OSPOはセグメントレベルのクレジットを割り当てるためにShapley-Owen属性を介して潜在的ベースの報酬シェーピングを採用する。
Amazon ESCIとH&M Fashionデータセットの実験は、ベースラインよりも一貫した利得を示している。
論文 参考訳(メタデータ) (2026-01-13T10:17:46Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Orchestrating Tokens and Sequences: Dynamic Hybrid Policy Optimization for RLVR [31.43482175098666]
Reinforcement Learning with Verifiable Rewards (RLVR)は,大規模言語モデルを推論タスクで最適化するための,有望なフレームワークを提供する。
既存のRLVRアルゴリズムは様々な粒度に重点を置いており、それぞれに相補的な強度と制限がある。
本稿では, GRPO と GSPO を単一のクリッピングサロゲート対象にブリッジする動的ハイブリッドポリシー最適化 (DHPO) を提案する。
論文 参考訳(メタデータ) (2026-01-09T07:57:40Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - GRPO-RM: Fine-Tuning Representation Models via GRPO-Driven Reinforcement Learning [52.16150076582931]
我々は、表現モデル(GRPO-RM)のためのグループ相対ポリシー最適化を提案する。
我々の手法は,大規模言語モデル(LLM)におけるトークンシーケンスサンプリングを機能的に置き換えるための事前定義された出力セットを確立する。
特殊報酬関数は表現モデルの性質を満たすように設計されている。
論文 参考訳(メタデータ) (2025-11-19T09:19:39Z) - Group-Aware Reinforcement Learning for Output Diversity in Large Language Models [8.356950556877612]
大規模言語モデル(LLM)は、しばしばモード崩壊に悩まされ、有効な回答が多数存在する場合でも、同じ少数の完了を繰り返し生成する。
本稿では,GAPO(Group-Aware Policy Optimization)を紹介する。GAPO(Group Relative Policy Optimization)のシンプルな拡張で,グループ全体の報酬を計算する。
周波数認識型報酬関数を用いてGAPOを実証し、有効なLLM完了に対する一様サンプリングを奨励し、GAPOが学習したモデルが有効でより多様なモデル応答を生成することを示す。
論文 参考訳(メタデータ) (2025-11-16T13:42:55Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。