論文の概要: EVPO: Explained Variance Policy Optimization for Adaptive Critic Utilization in LLM Post-Training
- arxiv url: http://arxiv.org/abs/2604.19485v1
- Date: Tue, 21 Apr 2026 14:07:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.800684
- Title: EVPO: Explained Variance Policy Optimization for Adaptive Critic Utilization in LLM Post-Training
- Title(参考訳): EVPO:LLMポストトライニングにおける適応的批判的利用のための説明変数ポリシー最適化
- Authors: Chengjun Pan, Shichun Liu, Jiahang Lin, Dingwei Zhu, Jiazheng Zhang, Shihan Dou, Songyang Gao, Zhenhua Han, Binghai Wang, Rui Zheng, Xuanjing Huang, Tao Gui, Yansong Feng,
- Abstract要約: 学習した評論家は、利点のばらつきを減らさずに、取得した状態信号を超える推定ノイズを注入できることを示す。
本稿では,各トレーニングステップでバッチレベルのEVを監視し,批判ベースとバッチ平均の利点推定を適応的に切り替えるEVPOを提案する。
- 参考スコア(独自算出の注目度): 69.32453275232662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) for LLM post-training faces a fundamental design choice: whether to use a learned critic as a baseline for policy optimization. Classical theory favors critic-based methods such as PPO for variance reduction, yet critic-free alternatives like GRPO have gained widespread adoption due to their simplicity and competitive performance. We show that in sparse-reward settings, a learned critic can inject estimation noise that exceeds the state signal it captures, increasing rather than reducing advantage variance. By casting baseline selection as a Kalman filtering problem, we unify PPO and GRPO as two extremes of the Kalman gain and prove that explained variance (EV), computable from a single training batch, identifies the exact boundary: positive EV indicates the critic reduces variance, while zero or negative EV signals that it inflates variance. Building on this insight, we propose Explained Variance Policy Optimization (EVPO), which monitors batch-level EV at each training step and adaptively switches between critic-based and batch-mean advantage estimation, provably achieving no greater variance than the better of the two at every step. Across four tasks spanning classical control, agentic interaction, and mathematical reasoning, EVPO consistently outperforms both PPO and GRPO regardless of which fixed baseline is stronger on a given task. Further analysis confirms that the adaptive gating tracks critic maturation over training and that the theoretically derived zero threshold is empirically optimal.
- Abstract(参考訳): LLMポストトレーニングのための強化学習(RL)は、学習した評論家を政策最適化のベースラインとして使うかどうかという、基本的な設計上の選択に直面している。
古典的理論は、PPOのような批判に基づく分散還元法を好んでいるが、GRPOのような批判のない代替法は、その単純さと競争性能のために広く採用されている。
スパース・リワード・セッティングにおいて、学習評論家は、得られる状態信号を超える推定ノイズを注入でき、利点のばらつきを低減できる。
カルマンフィルタ問題としてベースライン選択をキャストすることにより、PPOとGRPOをカルマンゲインの2つの極端として統一し、単一のトレーニングバッチから計算可能な分散(EV)を計算し、正確な境界を同定する。
この知見に基づいて,各トレーニングステップでバッチレベルのEVを監視し,批判ベースとバッチ平均の利点推定を適応的に切り替えるEVPO(Explained Variance Policy Optimization)を提案する。
古典的な制御、エージェントの相互作用、数学的推論にまたがる4つのタスクにおいて、EVPOは与えられたタスクに対してどの固定ベースラインが強いかに関わらず、PPOとGRPOの両方を一貫して上回る。
さらに、適応ゲーティングトラックは、トレーニングよりも成熟を批判し、理論的に導出されたゼロしきい値が実験的に最適であることを確認した。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Learning Without Critics? Revisiting GRPO in Classical Reinforcement Learning Environments [1.9559952759908155]
グループ相対政策最適化(GRPO)は、PPO(Proximal Policy Optimization)に代わるスケーラブルな代替手段として登場した。
本稿では,従来の単一タスク強化学習環境におけるGRPOの体系的研究について述べる。
論文 参考訳(メタデータ) (2025-11-05T15:01:32Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - Counterfactual Risk Minimization with IPS-Weighted BPR and Self-Normalized Evaluation in Recommender Systems [3.5507492850515323]
逆相対性スコア(IPS)は、このバイアスを補正するが、しばしば高いばらつきと不安定さに悩まされる。
IPS重み付きトレーニングとIPS重み付きベイズパーソナライズされたランク付け目標を統合した,シンプルで効果的なパイプラインを提案する。
合成およびMovieLens 100Kデータによる実験により、我々のアプローチは偏りのない露光下でより一般化されることが示された。
論文 参考訳(メタデータ) (2025-08-30T03:14:56Z) - Adaptive Group Policy Optimization: Towards Stable Training and Token-Efficient Reasoning [6.417080496525403]
本稿では,適応的グループポリシー最適化(AGPO)を提案する。これは,適応的損失関数(adaptive loss function)を用いて,トレーニングのゆらぎとトークンの非効率を緩和する。
実験により,提案手法は推論ステップにおけるトークンを著しく少なくして,より安定した訓練と優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-20T08:48:57Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。