論文の概要: Multi-Step Likelihood-Ratio Correction for Reinforcement Learning with Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2605.20865v1
- Date: Wed, 20 May 2026 08:01:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.560669
- Title: Multi-Step Likelihood-Ratio Correction for Reinforcement Learning with Verifiable Rewards
- Title(参考訳): 検証可能なリワードを用いた強化学習のための多段階類似度補正
- Authors: Deokgyu Yoon, Hyungkyu Kang, Joongkyu Lee, Byeongchan Kim, Gyungin Shin, Sungrae Park, Min-hwan Oh,
- Abstract要約: 我々は、次の$N-1$トークンの累積確率比を用いて、PPOのサロゲート目的を増大させる$N$-stepフォワードトレースを導入する。
本稿では,N$-Step Forward-Trace Policy Optimization (NFPO)を提案する。
- 参考スコア(独自算出の注目度): 37.18459396066428
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) plays a pivotal role in improving the reasoning ability of large language models. However, widely used PPO surrogate objectives are fundamentally local, as they rely on a local approximation of the exact policy gradient objective. While this approximation improves stability by reducing the variance induced by importance sampling, it also introduces structural bias into the surrogate objective, which must be controlled through trust region mechanisms. In this work, we introduce the $N$-step forward trace, which augments the PPO surrogate objective using the cumulative likelihood ratio of the next $N-1$ tokens. Building on this idea, we propose $N$-Step Forward-Trace Policy Optimization (NFPO), a practical RLVR algorithm that integrates the $N$-step forward trace into the masked policy gradient framework. NFPO provides a continuous bridge between the PPO surrogate objective and the exact policy gradient objective, offering a principled mechanism for controlling the bias-variance trade-off. Our theoretical analysis shows that, with an appropriate choice of $N$, the proposed objective yields a tighter policy-improvement bound than the standard PPO surrogate. Experiments on comprehensive reasoning benchmarks demonstrate that NFPO consistently improves performance, supporting our theoretical findings.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は,大規模言語モデルの推論能力向上に重要な役割を果たしている。
しかしながら、広く使われているPPOサロゲートの目的は基本的に局所的であり、それらは正確な政策勾配の目的の局所的な近似に依存している。
この近似は、重要サンプリングによって引き起こされる分散を減少させることで安定性を向上させるが、信頼領域機構によって制御されなければならない代理対象に構造バイアスをもたらす。
本研究では、次の$N-1$トークンの累積確率比を用いて、PPOのサロゲート目的を増大させる$N$-stepフォワードトレースを導入する。
このアイデアに基づいて,N$-Step Forward-Trace Policy Optimization (NFPO) を提案する。
NFPOは、PPOサロゲート目標と正確な政策勾配目標との間に連続的な橋渡しを提供し、バイアス分散トレードオフを制御するための原則化されたメカニズムを提供する。
我々の理論的分析は、N$の適切な選択により、提案した目的が標準のPPOサロゲートよりも厳密な政策改善境界をもたらすことを示している。
総合的推論ベンチマーク実験により,NFPOは一貫して性能を向上し,理論的な結果が得られた。
関連論文リスト
- Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States [14.658333957936769]
内部状態価値推定による政策最適化を導入する。
ポリシーフォワードパス中に既に計算されているポリシーモデルの内部信号を用いて、無視可能なコストでベースラインを得る。
軽量プローブは、プロンプトおよび生成された軌道の隠れ状態から期待される検証可能な報酬を予測する。
論文 参考訳(メタデータ) (2026-05-08T10:49:36Z) - OGPO: Sample Efficient Full-Finetuning of Generative Control Policies [53.42266064673132]
ジェネレーティブコントロールポリシー(GCP)は、ロボット学習に有効なパラメータ化として登場した。
この研究は、GCPを微調整するためのサンプル効率であるOGPO(Off-policy Generative Policy Optimization)を導入している。
OGPOはマルチタスク設定、高精度挿入、デクスタラス制御にまたがる操作タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-05-04T18:36:40Z) - Bounded Ratio Reinforcement Learning [62.09379476369526]
本稿では,BRRL(Bunded Ratio Reinforcement Learning)フレームワークを導入し,都市部における強化学習の課題を解決する。
本稿では,BRRL の最適化手法であるBunded Policy Optimization (BPO) を開発した。
特に,我々のフレームワークは,PPO損失の成功を解釈する新たな理論レンズを提供し,信頼領域政策最適化とクロスエントロピー法(CEM)を接続する。
論文 参考訳(メタデータ) (2026-04-20T17:59:01Z) - $V_{0.5}$: Generalist Value Model as a Prior for Sparse RL Rollouts [81.48669089692189]
一般値モデル(例えば$V_0.5$)は、コンテキスト内のモデル機能を明示的にエンコードすることで、事前訓練された値推定を実現する。
本稿では,このような値モデルにより予測されるベースラインと,スパースロールアウトから導出される経験的平均とを適応的に融合する$V_0.5$を提案する。
V_0.5$はGRPOとDAPOを大きく上回り、より高速な収束と約10%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-03-11T14:57:41Z) - Robust Regularized Policy Iteration under Transition Uncertainty [6.7431287237221085]
我々は、オフラインRLをロバストなポリシー最適化として定式化し、遷移カーネルを不確実性集合内の決定変数として扱う。
本稿では、抽出可能な最大最小二レベル目標を、抽出可能なKL正規化サロゲートに置き換えるロバスト正規化ポリシーイテレーション(RRPI)を提案する。
D4RLベンチマークの実験では、RRPIは高い平均性能を示し、最近のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-03-10T08:18:27Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Reinforcement Fine-Tuning of Flow-Matching Policies for Vision-Language-Action Models [7.316631310935769]
VLA(Vision-Language-Action)モデルは、大規模なデモンストレーションを活用することで、強力な一般化を示している。
本研究では,FPOアルゴリズムを提案する。FPOアルゴリズムは,条件付きフローマッチングの目的に対して,サンプルごとの変化を生かして,重要サンプリングを再構築する。
LIBEROベンチマークのFPOとALOHAシミュレーションタスクを、教師付き、嗜好的、拡散的、自己回帰的オンラインRLに対して評価する。
論文 参考訳(メタデータ) (2025-10-11T03:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。