論文の概要: From Absolute to Relative: Rethinking Reward Shaping in Group-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.23058v1
- Date: Fri, 30 Jan 2026 15:07:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.516662
- Title: From Absolute to Relative: Rethinking Reward Shaping in Group-Based Reinforcement Learning
- Title(参考訳): 絶対から相対へ:集団強化学習におけるリワード形成の再考
- Authors: Wenzhe Niu, Wei He, Zongxia Xie, Jinpeng Ou, Huichuan Fan, Yuchen Ge, Yanru Sun, Ziyin Wang, Yizhao Sun, Chengshun Shi, Jiuchong Gao, Jinghua Hao, Renqing He,
- Abstract要約: 本稿では,報酬形成を絶対得点から相対ランクへシフトさせるために,相対報酬を用いた強化学習を提案する。
RLRRは、推論ベンチマークやオープン・エンド・ジェネレーションタスクにおいて、標準グループベースベースラインよりも一貫した性能向上をもたらすことを示す。
- 参考スコア(独自算出の注目度): 7.6602542594279335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has become a cornerstone for enhancing the reasoning capabilities of Large Language Models, where group-based approaches such as GRPO have emerged as efficient paradigms that optimize policies by leveraging intra-group performance differences. However, these methods typically rely on absolute numerical rewards, introducing intrinsic limitations. In verifiable tasks, identical group evaluations often result in sparse supervision, while in open-ended scenarios, the score range instability of reward models undermines advantage estimation based on group means. To address these limitations, we propose Reinforcement Learning with Relative Rewards (RLRR), a framework that shifts reward shaping from absolute scoring to relative ranking. Complementing this framework, we introduce the Ranking Reward Model, a listwise preference model tailored for group-based optimization to directly generate relative rankings. By transforming raw evaluations into robust relative signals, RLRR effectively mitigates signal sparsity and reward instability. Experimental results demonstrate that RLRR yields consistent performance improvements over standard group-based baselines across reasoning benchmarks and open-ended generation tasks.
- Abstract(参考訳): GRPOのようなグループベースのアプローチは、グループ内の性能差を利用してポリシーを最適化する効率的なパラダイムとして現れてきた。
しかし、これらの手法は典型的には絶対的な数値報酬に依存し、本質的な制限を導入する。
検証可能なタスクでは、同じグループ評価がスパース監視をもたらすことが多いが、オープンエンドシナリオでは、報酬モデルのスコア範囲不安定性は、グループ平均に基づいて有利な評価を損なう。
これらの制約に対処するため,絶対得点から相対ランクへ報酬形成をシフトさせるフレームワークであるReinforcement Learning with Relative Rewards (RLRR)を提案する。
この枠組みを補完し、グループベースの最適化に適したリストワイズ選好モデルであるランキング・リワードモデルを導入し、相対的なランキングを直接生成する。
生の評価をロバストな相対信号に変換することにより、RLRRは信号の分散性と報酬不安定性を効果的に緩和する。
実験により、RLRRは推論ベンチマークとオープンエンド生成タスクをまたいだ標準グループベースベースラインよりも一貫した性能向上が得られることが示された。
関連論文リスト
- Your Group-Relative Advantage Is Biased [74.57406620907797]
グループベースの学習手法は、学習評論家を避けるためにグループ相対的な優位性推定に依存する。
群相対的優位推定器は、真の(予想された)優位性に対して本質的に偏りがある。
適応的再重み付け方式であるヒストリー・アウェア適応困難度重み付け(HA-DW)を提案する。
論文 参考訳(メタデータ) (2026-01-13T13:03:15Z) - Owen-Shapley Policy Optimization (OSPO): A Principled RL Algorithm for Generative Search LLMs [12.75200353208858]
Owen-Shapley Policy Optimization (OSPO)は、トークンの成果に対する限界貢献に基づいて、シーケンスレベルの利点を再分配するフレームワークである。
付加的な計算を必要とする値モデルベースの方法とは異なり、OSPOはセグメントレベルのクレジットを割り当てるためにShapley-Owen属性を介して潜在的ベースの報酬シェーピングを採用する。
Amazon ESCIとH&M Fashionデータセットの実験は、ベースラインよりも一貫した利得を示している。
論文 参考訳(メタデータ) (2026-01-13T10:17:46Z) - ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。
我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。
実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-10T08:43:07Z) - ICPO: Intrinsic Confidence-Driven Group Relative Preference Optimization for Efficient Reinforcement Learning [17.98065634130798]
固有信頼駆動型グループ相対選好最適化法(ICPO)を提案する。
ICPOは、複数の応答の相対生成確率を同一の入力プロンプトで比較することにより、各応答に対する優先優位スコアを算出する。
優先的優位性スコアは、粗大な報酬や報奨ノイズの問題を緩和するだけでなく、過度に信頼された誤りを効果的に抑制することを発見した。
論文 参考訳(メタデータ) (2025-11-26T03:10:15Z) - Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models [50.84995206660551]
本研究では,条件付きアドバンテージ・エスティマティオン(CANON)を導入し,その方向を推定せずに目標距離の影響を増幅する。
エントロピーに基づくCANONは、数学推論と高複雑性論理タスクの両方において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-09-28T16:33:07Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Modeling the Q-Diversity in a Min-max Play Game for Robust Optimization [61.39201891894024]
群分布的ロバスト最適化(群 DRO)は、事前定義された群に対する最悪の損失を最小限にすることができる。
グループDROフレームワークをQ-Diversityを提案して再構築する。
インタラクティブなトレーニングモードによって特徴付けられるQ-Diversityは、アノテーションからグループ識別を緩和し、直接パラメータ化を行う。
論文 参考訳(メタデータ) (2023-05-20T07:02:27Z) - Re-weighting Based Group Fairness Regularization via Classwise Robust
Optimization [30.089819400033985]
そこで本研究では,グループフェアネス尺度を学習目標に組み込むことにより,この2つの学習手法を統一する原理的手法を提案する。
我々は,各グループに対して適切な再重み付けを自動的に生成することにより,結果の目的を最小化する反復最適化アルゴリズムを開発した。
実験の結果,FairDROはスケーラブルで,多様なアプリケーションに容易に適用可能であることがわかった。
論文 参考訳(メタデータ) (2023-03-01T12:00:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。