論文の概要: Learning to Reason under Off-Policy Guidance
- arxiv url: http://arxiv.org/abs/2504.14945v2
- Date: Tue, 22 Apr 2025 15:37:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 11:44:53.703286
- Title: Learning to Reason under Off-Policy Guidance
- Title(参考訳): オフ・ポリティ・ガイダンスによる推論の学習
- Authors: Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang,
- Abstract要約: LUFFYは、ゼロRLを非政治的推論トレースで拡張するフレームワークである。
LUFFYは、模擬と探検のバランスを取るために、オフ・ポリティクスのデモとオン・ポリティクスのロールアウトを組み合わせる。
LUFFYは6つの数学ベンチマークで平均+7.0以上のゲインを達成し、アウト・オブ・ディストリビューションタスクでは+6.2以上のポイントのアドバンテージを達成している。
- 参考スコア(独自算出の注目度): 40.27817638425237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large reasoning models (LRMs) demonstrate that sophisticated behaviors such as multi-step reasoning and self-reflection can emerge via reinforcement learning (RL) with simple rule-based rewards. However, existing zero-RL approaches are inherently ``on-policy'', limiting learning to a model's own outputs and failing to acquire reasoning abilities beyond its initial capabilities. We introduce LUFFY (Learning to reason Under oFF-policY guidance), a framework that augments zero-RL with off-policy reasoning traces. LUFFY dynamically balances imitation and exploration by combining off-policy demonstrations with on-policy rollouts during training. Notably, we propose policy shaping via regularized importance sampling to avoid superficial and rigid imitation during mixed-policy training. Remarkably, LUFFY achieves an over +7.0 average gain across six math benchmarks and an advantage of over +6.2 points in out-of-distribution tasks. It also substantially surpasses imitation-based supervised fine-tuning (SFT), particularly in generalization. Analysis shows LUFFY not only imitates effectively but also explores beyond demonstrations, offering a scalable path to train generalizable reasoning models with off-policy guidance.
- Abstract(参考訳): 大規模推論モデル(LRM)の最近の進歩は、多段階推論や自己回帰のような洗練された行動が、単純な規則に基づく報酬を持つ強化学習(RL)を通して現れることを示している。
しかし、既存の 0-RL アプローチは本質的に 'on-policy'' であり、学習をモデル自身の出力に制限し、最初の能力以上の推論能力を得ることができない。
LUFFY (Learning to reason oFF-policY guidance) は、ゼロRLを非政治的推論トレースで強化するフレームワークである。
LUFFYは、オフ・ポリティクスのデモとオン・ポリティクスのロールアウトを組み合わせることで、模倣と探索を動的にバランスさせる。
特に,混成政治訓練における表面的・硬直的模倣を回避するために,正規化重要サンプリングによる政策形成を提案する。
LUFFYは6つの数学ベンチマークで平均+7.0以上のゲインを達成し、アウト・オブ・ディストリビューションタスクでは+6.2以上のポイントのアドバンテージを達成している。
また、特に一般化において、模倣に基づく教師付き微調整(SFT)を大幅に超えている。
LUFFYは、効果的に模倣するだけでなく、デモを超えて、汎用的な推論モデルを非政治的なガイダンスで訓練するためのスケーラブルなパスを提供する。
関連論文リスト
- Training Large Language Models to Reason via EM Policy Gradient [0.27195102129094995]
LLM推論を強化するために、政治以外の強化学習アルゴリズムEM Policy Gradientを導入する。
GSM8KとMATH(HARD)データセットに対するEM Policy Gradientの有効性を評価する。
本手法で微調整したモデルでは, サブプロブレム分解, 自己検証, バックトラッキングなどの認知行動を示す。
論文 参考訳(メタデータ) (2025-04-24T01:31:05Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,LLMの推論能力の向上に成功している。
我々は、この仮定を再検討し、pass@textitkメトリックを大量のtextitk値で測定し、モデルの推論能力境界を探索する。
我々は、RLがエノノット、事実、根本的に新しい推論パターンを誘発することを発見した。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - LUNAR: LLM Unlearning via Neural Activation Redirection [20.60687563657169]
大規模言語モデル(LLM)は、はるかに大量のテキストデータのトレーニングの恩恵を受けるが、個人情報を漏洩するリスクはますます高まっている。
線形表現仮説に基づく新しいアンラーニング手法であるLUNARを提案する。
我々は,LUNARが,推論中の未学習モデルの制御性を著しく向上しつつ,最先端の未学習性能を達成することを示す。
論文 参考訳(メタデータ) (2025-02-11T03:23:22Z) - SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルに基づくオフライン強化学習は、事前コンパイルされたデータセットと学習環境モデルを使用してポリシーを訓練する。
本稿では,問題をモデルバイアスとポリシーシフトという2つの基本要素に分解する包括的分析を行う。
本稿では,モデルに基づくオフライン強化学習(SAMBO-RL)について紹介する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。