論文の概要: Shrinking the Variance: Shrinkage Baselines for Reinforcement Learning with Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2511.03710v1
- Date: Wed, 05 Nov 2025 18:43:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.522581
- Title: Shrinking the Variance: Shrinkage Baselines for Reinforcement Learning with Verifiable Rewards
- Title(参考訳): 変数の縮小: 検証可能なリワードによる強化学習のための収縮ベースライン
- Authors: Guanning Zeng, Zhaoyi Zhou, Daman Arora, Andrea Zanette,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模推論モデルの訓練後において強力なパラダイムとして登場した。
本研究では,全プロンプト平均推定精度を向上させるために,全プロンプト平均値と全プロンプト平均値を組み合わせた縮小推定器を提案する。
- 参考スコア(独自算出の注目度): 12.074691741125044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a powerful paradigm for post-training large reasoning models (LRMs) using policy-gradient methods such as GRPO. To stabilize training, these methods typically center trajectory rewards by subtracting the empirical mean for each prompt. Statistically, this centering acts as a control variate (or baseline), reducing the variance of the policy-gradient estimator. Typically, the mean reward is estimated using per-prompt empirical averages for each prompt in a batch. Drawing inspiration from Stein's paradox, we propose using shrinkage estimators that combine per-prompt and across-prompt means to improve the overall per-prompt mean estimation accuracy -- particularly in the low-generation regime typical of RLVR. Theoretically, we construct a shrinkage-based baseline that provably yields lower-variance policy-gradient estimators across algorithms. Our proposed baseline serves as a drop-in replacement for existing per-prompt mean baselines, requiring no additional hyper-parameters or computation. Empirically, shrinkage baselines consistently outperform standard empirical-mean baselines, leading to lower-variance gradient updates and improved training stability.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、GRPOのような政策段階の手法を用いた大規模推論モデル(LRM)の訓練後の強力なパラダイムとして登場した。
トレーニングを安定させるために、これらの手法は典型的には各プロンプトに対する経験的平均を減じることで軌道報酬の中心となる。
統計的には、この中心は制御変数(またはベースライン)として機能し、政策勾配推定器の分散を減少させる。
通常、平均報酬はバッチ内の各プロンプトに対して、プロンプト毎の実験平均を用いて推定される。
スタインのパラドックスからインスピレーションを得て、私たちは、特にRLVRの低世代体制において、プロンプトごとの平均推定精度を全般的に向上させるために、プロンプト毎とクロスプロンプト毎を組み合わせた縮小推定器を使うことを提案する。
理論的には,アルゴリズム間の低分散政策次数推定器を確実に生成する,縮退ベースラインを構築する。
提案するベースラインは,既存の1プロンプト平均ベースラインの代替として機能し,追加のハイパーパラメータや計算を必要としない。
経験的に、縮小ベースラインは標準的な経験的平均ベースラインを一貫して上回り、低分散勾配更新とトレーニング安定性の改善につながった。
関連論文リスト
- Asymmetric Proximal Policy Optimization: mini-critics boost LLM reasoning [49.57517969069136]
Asymmetric Proximal Policy Optimization (AsyPPO) は、大規模なモデル設定で効率を保ちながら、批評家の役割を回復するシンプルでスケーラブルなフレームワークである。
AsyPPOは軽量のミニ批評家を採用しており、それぞれが切り離されたプロンプトシャードで訓練されている。
強力なベースラインを越えて、複数のベンチマークで学習の安定性とパフォーマンスを継続的に改善する。
論文 参考訳(メタデータ) (2025-10-02T04:24:27Z) - Accelerating Residual Reinforcement Learning with Uncertainty Estimation [20.516264459225734]
残留強化学習(Residual Reinforcement Learning, RL)は、修正行動を提供する軽量な残留ポリシーを学習することで、事前訓練されたポリシーを適用するための一般的なアプローチである。
残留RLは基本方針全体を微調整するよりもサンプリング効率が高いが、既存の手法はスパース報酬に苦慮し、決定論的基本方針のために設計されている。
本稿では, サンプル効率をさらに向上し, 基本方針に適合させるため, 残留RLの2つの改良点を提案する。
論文 参考訳(メタデータ) (2025-06-21T03:18:01Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - Average-DICE: Stationary Distribution Correction by Regression [7.193870502672509]
オフ政治政策評価(OPE)は、長い間、定常的な状態分布ミスマッチに悩まされてきた。
AVG-DICEは密度比を計算的にシンプルなモンテカルロ推定器である。
我々の実験では、AVG-DICEは最先端の推定器と同じくらい正確であり、時にはマグニチュードの改良を提供する。
論文 参考訳(メタデータ) (2025-03-03T23:14:02Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Normality-Guided Distributional Reinforcement Learning for Continuous Control [13.818149654692863]
平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。
本研究では,複数の連続制御タスクにおける値分布について検討し,学習した値分布が正常に近いことを実証的に確認した。
本稿では,標準値関数に存在しない値分布の構造的特性によって測定された正当性に基づくポリシー更新戦略を提案する。
論文 参考訳(メタデータ) (2022-08-28T02:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。