論文の概要: POPE: Learning to Reason on Hard Problems via Privileged On-Policy Exploration
- arxiv url: http://arxiv.org/abs/2601.18779v1
- Date: Mon, 26 Jan 2026 18:47:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:09.020545
- Title: POPE: Learning to Reason on Hard Problems via Privileged On-Policy Exploration
- Title(参考訳): POPE: プライバシド・オン・ポリティクスによる難題の推論
- Authors: Yuxiao Qu, Amrith Setlur, Virginia Smith, Ruslan Salakhutdinov, Aviral Kumar,
- Abstract要約: On-policy Reinforcement Learning (RL)は、単一の正しいロールアウトでさえも探索せず、報酬はゼロであり、改善を促進するための学習信号がない。
PPE(Privleged On-Policy Exploration)は、人間や他のオラクルのソリューションを特権情報として活用し、難しい問題の探索をガイドする手法である。
POPEは、オラクルソリューションのプレフィックスで難しい問題を強化し、ガイド付きロールアウト中にRLが非ゼロ報酬を得ることを可能にする。
- 参考スコア(独自算出の注目度): 78.9858758758376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has improved the reasoning abilities of large language models (LLMs), yet state-of-the-art methods still fail to learn on many training problems. On hard problems, on-policy RL rarely explores even a single correct rollout, yielding zero reward and no learning signal for driving improvement. We find that natural solutions to remedy this exploration problem from classical RL, such as entropy bonuses, more permissive clipping of the importance ratio, or direct optimization of pass@k objectives, do not resolve this issue and often destabilize optimization without improving solvability. A natural alternative is to leverage transfer from easier problems. However, we show that mixing easy and hard problems during RL training is counterproductive due to ray interference, where optimization focuses on already-solvable problems in a way that actively inhibits progress on harder ones. To address this challenge, we introduce Privileged On-Policy Exploration (POPE), an approach that leverages human- or other oracle solutions as privileged information to guide exploration on hard problems, unlike methods that use oracle solutions as training targets (e.g., off-policy RL methods or warmstarting from SFT). POPE augments hard problems with prefixes of oracle solutions, enabling RL to obtain non-zero rewards during guided rollouts. Crucially, the resulting behaviors transfer back to the original, unguided problems through a synergy between instruction-following and reasoning. Empirically, POPE expands the set of solvable problems and substantially improves performance on challenging reasoning benchmarks.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)の推論能力を改善したが、最先端の手法では多くの訓練問題について学ばない。
難しい問題では、政治上のRLが単一の正しいロールアウトを探索することはめったになく、報酬はゼロであり、改善を促進するための学習信号は得られない。
エントロピーボーナスや重要性比のより寛容なクリッピング,pass@k目的の直接最適化といった古典的RLによるこの探索問題の解決は,この問題を解決せず,解答性を改善することなく最適化を安定化させることが多い。
自然な代替手段は、簡単な問題からの転送を活用することである。
しかし,RLトレーニング中の難解な問題と難解な問題を混在させることは,放射線干渉による非生産的であり,そこでは,難解な問題の進行を積極的に抑制する手法として,既に解決可能な問題に最適化が焦点をあてられている。
この課題に対処するために、我々はPrivileged On-Policy Exploration (POPE)を導入します。これは、人間や他のオラクルソリューションを特権情報として活用し、難しい問題の探索をガイドする手法です。
POPEは、オラクルソリューションのプレフィックスで難しい問題を強化し、ガイド付きロールアウト中にRLが非ゼロ報酬を得ることを可能にする。
重要なことに、結果として生じる振る舞いは、指示追従と推論の相乗効果によって、元の、ガイダンスのない問題に戻される。
実証的には、POPEは解決可能な問題の集合を拡張し、挑戦的推論ベンチマークのパフォーマンスを大幅に改善する。
関連論文リスト
- Reuse your FLOPs: Scaling RL on Hard Problems by Conditioning on Very Off-Policy Prefixes [22.721425502443253]
我々はPrefixRLを導入し、そこでは、成功裏のトレースのプレフィックスを条件にし、それらを完了させるために、オンデマンドのRLを実行します。
PrefixRLは、問題の難易度を政治外接頭辞の長さで調節することで、難しい問題に対する学習信号を強化する。
我々はPrefixRLの目的が標準RLの目的と一致しているだけでなく、より効率的なことを証明する。
論文 参考訳(メタデータ) (2026-01-26T18:57:00Z) - Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs [126.45104018441698]
強化学習(RL)は、大規模言語モデル(LLM)の訓練後の中心パラダイムとなっている。
この失敗は、解の集合の多様性よりもむしろ局所的なトークンの振る舞いを規則化することに起因すると我々は主張する。
我々は,まれなハイレベル戦略を示す正しいソリューションを明示的に報酬する,ロールアウトレベルの目標であるUniqueness-Aware Reinforcement Learningを提案する。
論文 参考訳(メタデータ) (2026-01-13T17:48:43Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Decoupled Prioritized Resampling for Offline RL [114.73666323173204]
オフライン強化学習のためのオフライン優先体験再生(OPER)を提案する。
OPERは、高度に反転する遷移を優先するように設計された優先順位関数のクラスを備えており、トレーニング中により頻繁に訪問することができる。
優先順位関数のクラスは行動ポリシーの改善を誘導し、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムによりより良い解が得られる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - Query-Policy Misalignment in Preference-Based Reinforcement Learning [21.212703100030478]
報酬モデル全体の品質を改善するために選択された一見有意義なクエリは、実際にはRLエージェントの関心と一致しない可能性があることを示す。
この問題は、ほぼ政治上のクエリと、特別に設計されたハイブリッド体験リプレイを通じて、効果的に対処できることが示される。
提案手法は,人間のフィードバックとRLサンプルの効率の両面で有意な向上を実現している。
論文 参考訳(メタデータ) (2023-05-27T07:55:17Z) - Learning Vehicle Routing Problems using Policy Optimisation [4.093722933440819]
最先端のアプローチは強化学習を使ってポリシーを学習し、学習ポリシーは擬似解法として機能する。
これらのアプローチは、あるケースでは優れた性能を示しているが、ルーティング問題に典型的な大きな検索空間を考えると、ポリシーの貧弱さに早すぎる可能性がある。
より多くのポリシーを提供することで探索を支援するエントロピー正規化強化学習(ERRL)を提案する。
論文 参考訳(メタデータ) (2020-12-24T14:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。