論文の概要: Advantage Shaping as Surrogate Reward Maximization: Unifying Pass@K Policy Gradients
- arxiv url: http://arxiv.org/abs/2510.23049v1
- Date: Mon, 27 Oct 2025 06:24:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.472697
- Title: Advantage Shaping as Surrogate Reward Maximization: Unifying Pass@K Policy Gradients
- Title(参考訳): サロゲート・リワードの最大化としてのアドバンテージ・シェイピング:Pass@Kポリシーのグラディエントを統一
- Authors: Christos Thrampoulidis, Sadegh Mahdavi, Wenlong Deng,
- Abstract要約: 既存の利点形成アルゴリズムは、サロゲート報酬を暗黙的に最適化していることを示す。
既存の利点形成法と新しい利点形成法の両方を導出するための簡単なレシピを提供する。
- 参考スコア(独自算出の注目度): 36.36267374509825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This note reconciles two seemingly distinct approaches to policy gradient optimization for the Pass@K objective in reinforcement learning with verifiable rewards: (1) direct REINFORCE-style methods, and (2) advantage-shaping techniques that directly modify GRPO. We show that these are two sides of the same coin. By reverse-engineering existing advantage-shaping algorithms, we reveal that they implicitly optimize surrogate rewards. We specifically interpret practical ``hard-example up-weighting'' modifications to GRPO as reward-level regularization. Conversely, starting from surrogate reward objectives, we provide a simple recipe for deriving both existing and new advantage-shaping methods. This perspective provides a lens for RLVR policy gradient optimization beyond our original motivation of Pass@K.
- Abstract(参考訳): 本稿では,(1)直接ReINFORCE方式,(2)GRPOを直接修正するアドバンテージ・シェイピング手法の2つのアプローチを検証した。
私たちはこれらが同じ硬貨の2つの側面であることを示します。
既存の利点形成アルゴリズムをリバースエンジニアリングすることで、サロゲート報酬を暗黙的に最適化することを明らかにする。
具体的には、GRPO に対する実践的な ``hard-example up-weighting' の修正を報酬レベルの正則化として解釈する。
逆に、報酬目的を代理することから、我々は既存の利点形成手法と新しい利点形成手法の両方を導出するための簡単なレシピを提供する。
この視点は、Pass@Kの当初の動機を超えて、RLVRポリシー勾配最適化のためのレンズを提供します。
関連論文リスト
- Polychromic Objectives for Reinforcement Learning [63.37185057794815]
強化学習微調整(Reinforcement Learning fine-tuning, RLFT)は、下流タスクの事前訓練されたポリシーを改善するための主要なパラダイムである。
多様な世代の探索・改良を明示的に実施する政策手法の目的について紹介する。
この目的を最適化するために、PPO(Pximal Policy Optimization)をどのように適用できるかを示す。
論文 参考訳(メタデータ) (2025-09-29T19:32:11Z) - Pass@K Policy Optimization: Solving Harder Reinforcement Learning Problems [6.873119751136341]
Reinforcement Learning (RL)アルゴリズムは、各問題に対して複数のn>1ソリューションをサンプリングし、それらを独立して報酬する。
これにより, 試料集合の多様性と集合的有用性を犠牲にして, 分離試料の強度を優先する。
本稿では,PKPO(Pass-at-k Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-05-21T07:26:36Z) - Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [43.77763433288893]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。
本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。
提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文 参考訳(メタデータ) (2024-06-27T14:03:49Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from
Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。
従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。
所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-30T13:43:20Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。