論文の概要: Near-Future Policy Optimization
- arxiv url: http://arxiv.org/abs/2604.20733v1
- Date: Wed, 22 Apr 2026 16:20:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.225618
- Title: Near-Future Policy Optimization
- Title(参考訳): 近未来の政策最適化
- Authors: Chuanyu Qin, Chenxu Yang, Qingyi Si, Naibin Gu, Dingyu Yao, Zheng Lin, Peng Fu, Nan Duan, Jiaqi Wang,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は、学習後の中核的なレシピとなっている。
textbfNear-Future textbfPolicy textbfOptimization (textbfNPO)を提案する。
- 参考スコア(独自算出の注目度): 51.760544033045726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has become a core post-training recipe. Introducing suitable off-policy trajectories into on-policy exploration accelerates RLVR convergence and raises the performance ceiling, yet finding a source of such trajectories remains the key challenge. Existing mixed-policy methods either import trajectories from external teachers (high-quality but distributionally far) or replay past training trajectories (close but capped in quality), and neither simultaneously satisfies the strong enough (higher $Q$ , more new knowledge to learn) and close enough (lower $V$ , more readily absorbed) conditions required to maximize the effective learning signal $\mathcal{S} = Q/V$. We propose \textbf{N}ear-Future \textbf{P}olicy \textbf{O}ptimization (\textbf{NPO}), a simple mixed-policy scheme that learns from a policy's own near-future self: a later checkpoint from the same training run is a natural source of auxiliary trajectories that is both stronger than the current policy and closer than any external source, directly balancing trajectory quality against variance cost. We validate NPO through two manual interventions, early-stage bootstrapping and late-stage plateau breakthrough, and further propose \textbf{AutoNPO},an adaptive variant that automatically triggers interventions from online training signals and selects the guide checkpoint that maximizes $S$. On Qwen3-VL-8B-Instruct with GRPO, NPO improves average performance from 57.88 to 62.84, and AutoNPO pushes it to 63.15, raising the final performance ceiling while accelerating convergence.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は、学習後の中核的なレシピとなっている。
適切なオフ・ポリティクスの軌道をオン・ポリティクスに導入することで、RLVRの収束が加速し、パフォーマンス・天井が上昇するが、そのような軌道の源を見つけることが重要な課題である。
既存の混成政治手法は、外部教師(高品質だが、分布的には遠い)から軌跡を輸入するか、過去の訓練軌跡(クローズだが、品質に制限されている)を再生するか、同時に、十分な(より高い$Q$、より新しい知識)と十分な(より低い$V$、より容易に吸収される)条件を満たさずに、効果的な学習信号$\mathcal{S} = Q/V$を最大化するのに必要となる条件を満たす。
我々は、政策の近未来的自己から学習する単純な混合政治スキームである \textbf{N}ear-Future \textbf{P}olicy \textbf{O}ptimization (\textbf{NPO})を提案する。
我々は,2つの手動介入,早期ブートストラップと後期プレートブレークスルーによるNPOの検証を行い,さらにオンライントレーニング信号からの介入を自動的にトリガする適応型である \textbf{AutoNPO} を提案し,S$を最大化するガイドチェックポイントを選択する。
Qwen3-VL-8B-Instruct with GRPOでは、NPOは平均性能を57.88から62.84に改善し、AutoNPOは63.15にプッシュし、最終的な性能天井を上昇させ、収束を加速させる。
関連論文リスト
- Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs [19.079556051442168]
強化学習(Reinforcement Learning, RL)は、推論タスクにおける大規模言語モデルの改善に広く用いられている。
しかし、REINFORCE や GRPO のような広く採用されている批判のない政策段階的手法では、高い非同期性によって政策段階的推定器は明らかにノイズを生じさせる。
本稿では,REINFORCE/GRPOスタイルのアルゴリズムの安定化手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T18:40:51Z) - SOUP: Token-level Single-sample Mix-policy Reinforcement Learning for Large Language Models [67.41779761651924]
SOUPは、トークンレベルで個々のサンプル内でオフとオンの学習を統合するフレームワークである。
標準のオン・ポリティクス・トレーニングと既存のオフ・ポリティクス・エクステンションを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-29T09:56:15Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Accelerating Proximal Policy Optimization Learning Using Task Prediction for Solving Environments with Delayed Rewards [8.455772877963792]
オフラインポリシとオンラインPPOポリシを組み合わせたハイブリッドポリシアーキテクチャと,TWTL(Time Window Temporal Logic)を用いた報酬形成機構の2つを導入する。
我々は,逆振り子と月面着陸機環境に関する広範囲な実験を通じて,我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-11-26T20:22:31Z) - Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization [3.2288603733409498]
条件拡散モデルを適応可能な行動として扱う政策枠組みを厳格に提示する。
前者はログ化されたデータに基づいて事前訓練され、サンプリング時にのみオンラインで、現在のポリシーステートでのアクションの提案に使用される。
以上の結果から,事前の適応的拡散行動は,緊密な相互作用予算の下での政策PPOを強化するための実践的な方法であることが示唆された。
論文 参考訳(メタデータ) (2024-09-02T19:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。