論文の概要: Learning to Reason under Off-Policy Guidance
- arxiv url: http://arxiv.org/abs/2504.14945v3
- Date: Tue, 20 May 2025 07:29:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.053154
- Title: Learning to Reason under Off-Policy Guidance
- Title(参考訳): オフ・ポリティ・ガイダンスによる推論の学習
- Authors: Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang,
- Abstract要約: textbfLUFFY(textbfLearning to reason textbfUnder otextbfFF-polictextbfY guidance)を導入する。
LUFFYは、模擬と探検のバランスを取るために、オフ・ポリティクスのデモとオン・ポリティクスのロールアウトを組み合わせる。
- 参考スコア(独自算出の注目度): 40.27817638425237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large reasoning models (LRMs) demonstrate that sophisticated behaviors such as multi-step reasoning and self-reflection can emerge via reinforcement learning with verifiable rewards~(\textit{RLVR}). However, existing \textit{RLVR} approaches are inherently ``on-policy'', limiting learning to a model's own outputs and failing to acquire reasoning abilities beyond its initial capabilities. To address this issue, we introduce \textbf{LUFFY} (\textbf{L}earning to reason \textbf{U}nder o\textbf{FF}-polic\textbf{Y} guidance), a framework that augments \textit{RLVR} with off-policy reasoning traces. LUFFY dynamically balances imitation and exploration by combining off-policy demonstrations with on-policy rollouts during training. Specifically, LUFFY combines the Mixed-Policy GRPO framework, which has a theoretically guaranteed convergence rate, alongside policy shaping via regularized importance sampling to avoid superficial and rigid imitation during mixed-policy training. Compared with previous RLVR methods, LUFFY achieves an over \textbf{+6.4} average gain across six math benchmarks and an advantage of over \textbf{+6.2} points in out-of-distribution tasks. Most significantly, we show that LUFFY successfully trains weak models in scenarios where on-policy RLVR completely fails. These results provide compelling evidence that LUFFY transcends the fundamental limitations of on-policy RLVR and demonstrates the great potential of utilizing off-policy guidance in RLVR.
- Abstract(参考訳): 大規模推論モデル(LRM)の最近の進歩は、多段階推論や自己回帰のような洗練された行動が、検証可能な報酬~(\textit{RLVR})による強化学習によって現れることを示している。
しかし、既存の‘textit{RLVR} アプローチは本質的に ‘on-policy'' であり、学習をモデル自身の出力に制限し、最初の能力以上の推論能力を獲得できない。
この問題に対処するために、政治外の推論トレースで \textit{RLVR} を拡張するフレームワークである \textbf{LUFFY} (\textbf{L}earning to reason \textbf{U}nder o\textbf{FF}-polic\textbf{Y} guidance) を導入する。
LUFFYは、オフ・ポリティクスのデモとオン・ポリティクスのロールアウトを組み合わせることで、模倣と探索を動的にバランスさせる。
特に、LUFFYは、理論上は収束率が保証されているMixed-Policy GRPOフレームワークと、規則化された重要度サンプリングによるポリシーシェーピングを組み合わせることで、混合政治訓練における表面的および硬直的な模倣を回避する。
従来のRLVR法と比較すると、LUFFYは6つの数学ベンチマークの平均的なゲインを達成し、アウト・オブ・ディストリビューション・タスクにおいて、オーバー・オブ・ディストリビューション・タスクにおいて、textbf{+6.2}ポイントの利点を享受する。
最も重要なことは、LUFFYは、オンラインのRLVRが完全に失敗するシナリオで弱いモデルをトレーニングすることに成功していることを示している。
これらの結果は、LUFFYがオン・ポリティクスのRLVRの基本的限界を超越し、オフ・ポリティクス・ガイダンスをRLVRで活用する大きな可能性を証明しているという説得力のある証拠となる。
関連論文リスト
- Training Large Language Models to Reason via EM Policy Gradient [0.27195102129094995]
LLM推論を強化するために、政治以外の強化学習アルゴリズムEM Policy Gradientを導入する。
GSM8KとMATH(HARD)データセットに対するEM Policy Gradientの有効性を評価する。
本手法で微調整したモデルでは, サブプロブレム分解, 自己検証, バックトラッキングなどの認知行動を示す。
論文 参考訳(メタデータ) (2025-04-24T01:31:05Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,LLMの推論能力の向上に成功している。
我々は、この仮定を再検討し、pass@textitkメトリックを大量のtextitk値で測定し、モデルの推論能力境界を探索する。
我々は、RLがエノノット、事実、根本的に新しい推論パターンを誘発することを発見した。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - LUNAR: LLM Unlearning via Neural Activation Redirection [20.60687563657169]
大規模言語モデル(LLM)は、はるかに大量のテキストデータのトレーニングの恩恵を受けるが、個人情報を漏洩するリスクはますます高まっている。
線形表現仮説に基づく新しいアンラーニング手法であるLUNARを提案する。
我々は,LUNARが,推論中の未学習モデルの制御性を著しく向上しつつ,最先端の未学習性能を達成することを示す。
論文 参考訳(メタデータ) (2025-02-11T03:23:22Z) - SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルに基づくオフライン強化学習は、事前コンパイルされたデータセットと学習環境モデルを使用してポリシーを訓練する。
本稿では,問題をモデルバイアスとポリシーシフトという2つの基本要素に分解する包括的分析を行う。
本稿では,モデルに基づくオフライン強化学習(SAMBO-RL)について紹介する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。