論文の概要: Think Outside the Policy: In-Context Steered Policy Optimization
- arxiv url: http://arxiv.org/abs/2510.26519v1
- Date: Thu, 30 Oct 2025 14:14:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.851274
- Title: Think Outside the Policy: In-Context Steered Policy Optimization
- Title(参考訳): 政策の外で考える:インコンテキストステアリングされた政策最適化
- Authors: Hsiu-Yuan Huang, Chenming Tang, Weijie Liu, Saiyong Yang, Yunfang Wu,
- Abstract要約: In-context Steered Policy Optimizationは、既存のデータセットを使用した専門家のガイダンスを提供する。
ICPOは、数学的推論ベンチマークにおける強化学習性能と訓練安定性を一貫して向上させる。
- 参考スコア(独自算出の注目度): 13.24687763539952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Reinforcement Learning from Verifiable Rewards (RLVR) methods, such as Group Relative Policy Optimization (GRPO), have achieved remarkable progress in improving the reasoning capabilities of Large Reasoning Models (LRMs). However, they exhibit limited exploration due to reliance on on-policy rollouts where confined to the current policy's distribution, resulting in narrow trajectory diversity. Recent approaches attempt to expand policy coverage by incorporating trajectories generated from stronger expert models, yet this reliance increases computational cost and such advaned models are often inaccessible. To address these issues, we propose In-Context Steered Policy Optimization (ICPO), a unified framework that leverages the inherent in-context learning capability of LRMs to provide expert guidance using existing datasets. ICPO introduces Mixed-Policy GRPO with Implicit Expert Forcing, which expands exploration beyond the current policy distribution without requiring advanced LRM trajectories. To further stabilize optimization, ICPO integrates Expert Region Reject Sampling to filter unreliable off-policy trajectories and Annealed Expert-Bonus Reward Shaping to balance early expert guidance with later autonomous improvement. Results demonstrate that ICPO consistently enhances reinforcement learning performance and training stability on mathematical reasoning benchmarks, revealing a scalable and effective RLVR paradigm for LRMs.
- Abstract(参考訳): グループ相対政策最適化(GRPO)などの既存のRLVR手法による強化学習は,LRM(Large Reasoning Models)の推論能力の向上に顕著な進歩を遂げている。
しかし、現在の政策の分布に限られる政治上のロールアウトに依存するため、限定的な探索が行われ、結果として軌道の多様性は狭くなっている。
近年のアプローチでは、より強力な専門家モデルから生成された軌跡を組み込むことで、政策カバレッジを拡大しようとするが、この依存度は計算コストを増大させ、そのようなアドバンテージモデルはしばしばアクセスできない。
これらの課題に対処するため,既存のデータセットを用いたエキスパートガイダンスを提供するために,LRMの固有のコンテキスト内学習能力を活用する統合フレームワークであるICPOを提案する。
ICPOはMixed-Policy GRPO with Implicit Expert Forcingを導入した。
さらに最適化を安定化するため、ICPOはExpert Region Reject Smplingを統合して、信頼できないオフ・ポリティクスの軌跡をフィルタリングし、Annealed Expert-Bonus Reward Shapingは初期のエキスパートガイダンスとその後の自律的な改善のバランスを取る。
その結果、ICPOは数学推論ベンチマークの強化学習性能とトレーニング安定性を一貫して向上させ、LRMのスケーラブルで効果的なRLVRパラダイムを明らかにした。
関連論文リスト
- Policy Regularized Distributionally Robust Markov Decision Processes with Linear Function Approximation [10.35045003737115]
分散シフトによる意思決定は、トレーニングとデプロイメント環境が異なる強化学習(RL)における中心的な課題である。
本稿では,モデルのないオンラインポリシー最適化手法DR-RPOを提案する。
DR-RPO は,ロバストな RL における準最適境界とサンプル効率を実現し,値に基づく手法の性能に適合することを示す。
論文 参考訳(メタデータ) (2025-10-16T02:56:58Z) - RiskPO: Risk-based Policy Optimization via Verifiable Reward for LLM Post-Training [13.309653291779233]
検証可能な報酬を伴う強化学習は、大規模言語モデル(LLM)の訓練後の中心パラダイムとして浮上している。
これらの問題は、稀だが有意義な推論パスを無視しながら、高確率な出力シーケンスを過度に強調することに起因すると我々は主張する。
本稿では,古典的平均的目標を原則的リスク対策に置き換えるリスクベース政策最適化(RiskPO)を提案する。
論文 参考訳(メタデータ) (2025-10-01T13:53:09Z) - EAPO: Enhancing Policy Optimization with On-Demand Expert Assistance [19.21616215817727]
大規模言語モデル (LLM) は、最近、検証可能な報酬の下で強化学習 (RL) で最適化された場合、推論において進歩している。
本稿では,外部の専門家とのマルチターンインタラクションを取り入れた新しいRLフレームワークEAPOを提案する。
EAPOは、いつ、どのように専門家に相談するかを適応的に決定し、よりリッチな報酬信号とより信頼性の高い推論軌跡を得る政策を奨励する。
論文 参考訳(メタデータ) (2025-09-28T08:20:22Z) - Value-Free Policy Optimization via Reward Partitioning [0.08192907805418585]
単軌道強化学習のための新しい手法であるReward Partitioning Optimization (RPO)を導入する。
RPOは、データから直接推定されるアプローチを使用して、観察された報酬を正規化する。
我々は,Flan-T5エンコーダデコーダモデルを用いて,スカラーフィードバック言語モデリングタスクにおけるRPOの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-16T17:06:27Z) - On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文 参考訳(メタデータ) (2025-05-29T15:58:04Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。