論文の概要: Policy Improvement Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.00860v1
- Date: Wed, 01 Apr 2026 13:10:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.999406
- Title: Policy Improvement Reinforcement Learning
- Title(参考訳): 政策改善強化学習
- Authors: Huaiyang Wang, Xiaojie Li, Deqing Wang, Haoyi Zhou, Zixuan Huang, Yaodong Yang, Jianxin Li, Yikun Ban,
- Abstract要約: Reinforcement Learning with Verifiable Rewards (RLVR) は、大規模言語モデルの推論能力を改善するためのトレーニング後の中心的なパラダイムとなっている。
既存のメソッドは共通の盲点を共有している: 結果の更新によってモデルが実際に改善されたかどうかを検証することなく、即時のグループレベルまたはバッチレベルの統計に基づいてポリシーを最適化する。
我々は、政策改善のフィードバックが欠落していること、すなわち、中間段階の進捗を直接測定し、最適化する能力が欠けていることを論じる。
- 参考スコア(独自算出の注目度): 40.05196753615896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has become a central post-training paradigm for improving the reasoning capabilities of large language models. Yet existing methods share a common blind spot: they optimize policies based on instantaneous group-level or batch-level statistics without ever verifying whether the resulting update actually improved the model. This open-loop design -- updating in isolation at each step, guided only by within-group (batch) reward signals -- means optimization can drift or collapse with no mechanism to detect and correct these failures. We argue that the missing ingredient is policy improvement feedback: the ability to measure and optimize inter-iteration progress directly. To this end, we introduce Policy Improvement Reinforcement Learning (PIRL), a framework that replaces surrogate reward maximization with the explicit objective of maximizing cumulative policy improvement across iterations, and prove this temporal objective is perfectly aligned with maximizing final task performance. Building on PIRL, we propose Policy Improvement Policy Optimization (PIPO), which implements closed-loop optimization through retrospective verification. At each iteration, PIPO evaluates whether the previous update yielded genuine improvement against a sliding-window historical baseline, then actively reinforces beneficial updates and suppresses the harmful ones -- transforming an open-loop process into a self-correcting one. We provide theoretical analysis showing that PIPO performs ascent on the PIRL objective in expectation, and experiments on mathematical reasoning benchmarks demonstrate improved stability and performance over GRPO and its variants.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、大規模言語モデルの推論能力を改善するためのトレーニング後の中心的なパラダイムとなっている。
更新結果が実際にモデルを改善したかどうかを検証することなく、即時のグループレベルまたはバッチレベルの統計に基づいてポリシーを最適化する。
このオープンループ設計は、各ステップで独立して更新され、グループ内(バッチ)報酬信号のみによってガイドされる。
我々は、政策改善のフィードバックが欠落していること、すなわち、中間段階の進捗を直接測定し、最適化する能力が欠けていることを論じる。
この目的のために我々は,サロゲート報酬の最大化を,反復の累積的な政策改善を最大化する明示的な目的に置き換える枠組みであるPIRLを導入し,この時間的目標が最終タスク性能の最大化と完全に整合していることを証明する。
PIRLに基づく政策改善政策最適化(PIPO)を提案する。
各イテレーションにおいて、PIPOは、前回の更新がスライディングウインドウの歴史的なベースラインに対して真に改善したかどうかを評価し、有効な更新を積極的に強化し、有害な更新を抑圧します。
我々は,PIPOが期待値においてPIRL目標を上昇させることを示す理論的解析を行い,GRPOとその変種に対する安定性と性能の向上を示す数学的推論ベンチマークの実験を行った。
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning [42.18368547352248]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるための有望なパラダイムとして登場した。
欠陥陽性のロールアウトに対して,パラメータフリーの報酬ペナルティを示すFlawed-Aware Policy Optimization (FAPO)を提案する。
FAPOは広い領域で有効であり、トークン予算を増やすことなく、結果の正しさ、プロセスの信頼性、トレーニング安定性を向上させる。
論文 参考訳(メタデータ) (2025-10-26T05:49:38Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Reinforcement Fine-Tuning of Flow-Matching Policies for Vision-Language-Action Models [7.316631310935769]
VLA(Vision-Language-Action)モデルは、大規模なデモンストレーションを活用することで、強力な一般化を示している。
本研究では,FPOアルゴリズムを提案する。FPOアルゴリズムは,条件付きフローマッチングの目的に対して,サンプルごとの変化を生かして,重要サンプリングを再構築する。
LIBEROベンチマークのFPOとALOHAシミュレーションタスクを、教師付き、嗜好的、拡散的、自己回帰的オンラインRLに対して評価する。
論文 参考訳(メタデータ) (2025-10-11T03:11:18Z) - GTPO: Trajectory-Based Policy Optimization in Large Language Models [42.60363805227946]
政策に基づく最適化は、今日の言語モデルのトレーニングとアライメントに広く採用されている。
本稿では,GRPOの2つの大きな限界を明らかにし,解析する。
コンフリクトトークンを識別するGTPOを導入する。
論文 参考訳(メタデータ) (2025-08-05T08:15:01Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。