論文の概要: On Advantage Estimates for Max@K Policy Gradients
- arxiv url: http://arxiv.org/abs/2606.06080v1
- Date: Thu, 04 Jun 2026 12:16:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.781492
- Title: On Advantage Estimates for Max@K Policy Gradients
- Title(参考訳): Max@K Policy Gradientsのアドバンテージ評価について
- Authors: Shota Takashiro, Soichiro Nishimori, Paavo Parmas, Yongmin Kim, Kohsei Matsutani, Gouki Minegishi, Yusuke Iwasawa, Takeshi Kojima, Yutaka Matsuo,
- Abstract要約: バッチのメリットを正確に重視しながら、ポリシーの緩やかな偏りを保ちながら、リーフツーアウトのベースラインを導入します。
結果、MaxPOは効率的な二次時間実装を持ち、LLM後学習のためのグループベースRLに自然に統合される。
実験により,L2Oベースラインは勾配のばらつきを低減し,非中心の代替よりも優れることを確認した。
- 参考スコア(独自算出の注目度): 38.07689739365912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards is widely used for post-training reasoning models, but sparse outcome rewards make exploration difficult. A complementary approach is to optimize inference-time objectives such as pass@K and max@K directly, yet existing policy-gradient estimators for these objectives use different signals, baselines, and normalizations, making their relationships unclear. We study this issue through baseline design and advantage centering. Starting from the advantage estimator of a leading method in the field, we show that it is policy-gradient unbiased but yields a non-centered advantage. We then introduce a Leave-Two-Out baseline that preserves policy-gradient unbiasedness while making realized batch advantages exactly centered. The resulting method, MaxPO, has an efficient quadratic-time implementation and integrates naturally into group-based RL for LLM post-training. We further derive the canonical finite-batch advantage for max@K, providing a unified view of existing advantage estimators. Empirically, we verify that the L2O baseline reduces gradient variance and outperforms non-centered alternatives.
- Abstract(参考訳): 検証可能な報酬を伴う強化学習は、訓練後の推論モデルに広く用いられているが、希少な結果報酬は探索を困難にしている。
補完的なアプローチとして、pass@Kやmax@Kなどの推論時間の目的を直接最適化するが、これらの目的のための既存のポリシー勾配推定器では、異なる信号、ベースライン、正規化を使用しており、それらの関係は不明確である。
我々はこの問題をベースライン設計とアドバンテージセンタリングを通じて研究する。
この分野の先導的手法の利点推定器から、政策段階の偏りがないが、非中心的優位性をもたらすことを示す。
次に、リーフツーアウトベースラインを導入します。これは、ポリシーの段階的な不偏性を維持しつつ、バッチのメリットを正確に重視します。
結果、MaxPOは効率的な二次時間実装を持ち、LLM後学習のためのグループベースRLに自然に統合される。
さらに、max@K に対する標準有限バッチの利点を導出し、既存の利点推定器の統一的なビューを提供する。
実験により,L2Oベースラインは勾配のばらつきを低減し,非中心の代替よりも優れることを確認した。
関連論文リスト
- BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization [23.13988703785064]
大規模言語モデル(LLM)における社会的バイアスの緩和は、異なるアライメントの課題を示す。
直接選好最適化(DPO)は、オフライントレーニングに固有の探索の欠如によって制限される。
PPO(Proximal Policy Optimization)は、潜在的に信頼性の低い批評家の推定により、トレーニング不安定につながる可能性がある。
論文 参考訳(メタデータ) (2026-06-03T12:31:42Z) - One-Way Policy Optimization for Self-Evolving LLMs [63.8638342097375]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLMs)の推論能力を拡張するための,有望なパラダイムとなっている。
本稿では,最適化方向を更新等級から切り離す手法である1-Way Policy Optimization (OWPO)を提案する。
実験の結果,OWPOはDAPO,OPD,MOPDなどの強いベースラインより優れていた。
論文 参考訳(メタデータ) (2026-05-21T08:25:27Z) - ReNCE: Learning to Reason by Noise Contrastive Estimation [7.590073864595161]
GRPOは、事前訓練されたLLMに推論機能を持たせるための標準的なアプローチである。
優位性を推定する代わりに、正と負の集合に$K$の結果を二分する。
論文 参考訳(メタデータ) (2026-01-30T00:57:31Z) - Asymmetric Proximal Policy Optimization: mini-critics boost LLM reasoning [49.57517969069136]
Asymmetric Proximal Policy Optimization (AsyPPO) は、大規模なモデル設定で効率を保ちながら、批評家の役割を回復するシンプルでスケーラブルなフレームワークである。
AsyPPOは軽量のミニ批評家を採用しており、それぞれが切り離されたプロンプトシャードで訓練されている。
強力なベースラインを越えて、複数のベンチマークで学習の安定性とパフォーマンスを継続的に改善する。
論文 参考訳(メタデータ) (2025-10-02T04:24:27Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。