Fugu-MT 論文翻訳(概要): Learning to Reason under Off-Policy Guidance

論文の概要: Learning to Reason under Off-Policy Guidance

arxiv url: http://arxiv.org/abs/2504.14945v2
Date: Tue, 22 Apr 2025 15:37:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-30 11:44:53.703286
Title: Learning to Reason under Off-Policy Guidance
Title（参考訳）: オフ・ポリティ・ガイダンスによる推論の学習
Authors: Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang,
Abstract要約: LUFFYは、ゼロRLを非政治的推論トレースで拡張するフレームワークである。 LUFFYは、模擬と探検のバランスを取るために、オフ・ポリティクスのデモとオン・ポリティクスのロールアウトを組み合わせる。 LUFFYは6つの数学ベンチマークで平均+7.0以上のゲインを達成し、アウト・オブ・ディストリビューションタスクでは+6.2以上のポイントのアドバンテージを達成している。
参考スコア（独自算出の注目度）: 40.27817638425237
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in large reasoning models (LRMs) demonstrate that sophisticated behaviors such as multi-step reasoning and self-reflection can emerge via reinforcement learning (RL) with simple rule-based rewards. However, existing zero-RL approaches are inherently ``on-policy'', limiting learning to a model's own outputs and failing to acquire reasoning abilities beyond its initial capabilities. We introduce LUFFY (Learning to reason Under oFF-policY guidance), a framework that augments zero-RL with off-policy reasoning traces. LUFFY dynamically balances imitation and exploration by combining off-policy demonstrations with on-policy rollouts during training. Notably, we propose policy shaping via regularized importance sampling to avoid superficial and rigid imitation during mixed-policy training. Remarkably, LUFFY achieves an over +7.0 average gain across six math benchmarks and an advantage of over +6.2 points in out-of-distribution tasks. It also substantially surpasses imitation-based supervised fine-tuning (SFT), particularly in generalization. Analysis shows LUFFY not only imitates effectively but also explores beyond demonstrations, offering a scalable path to train generalizable reasoning models with off-policy guidance.
Abstract（参考訳）: 大規模推論モデル(LRM)の最近の進歩は、多段階推論や自己回帰のような洗練された行動が、単純な規則に基づく報酬を持つ強化学習(RL)を通して現れることを示している。しかし、既存の 0-RL アプローチは本質的に 'on-policy'' であり、学習をモデル自身の出力に制限し、最初の能力以上の推論能力を得ることができない。 LUFFY (Learning to reason oFF-policY guidance) は、ゼロRLを非政治的推論トレースで強化するフレームワークである。 LUFFYは、オフ・ポリティクスのデモとオン・ポリティクスのロールアウトを組み合わせることで、模倣と探索を動的にバランスさせる。特に,混成政治訓練における表面的・硬直的模倣を回避するために,正規化重要サンプリングによる政策形成を提案する。 LUFFYは6つの数学ベンチマークで平均+7.0以上のゲインを達成し、アウト・オブ・ディストリビューションタスクでは+6.2以上のポイントのアドバンテージを達成している。また、特に一般化において、模倣に基づく教師付き微調整(SFT)を大幅に超えている。 LUFFYは、効果的に模倣するだけでなく、デモを超えて、汎用的な推論モデルを非政治的なガイダンスで訓練するためのスケーラブルなパスを提供する。

関連論文リスト

RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。 RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文参考訳（メタデータ） (2025-07-31T23:55:29Z)
Semi-off-Policy Reinforcement Learning for Vision-Language Slow-thinking Reasoning [50.748123348417984]
本稿では、視覚言語によるスローtHInking reAsoningのためのシンプルでスケーラブルなセミオフポリシーRLであるSOPHIAを提案する。 SOPHIAは、訓練可能なLVLMからのオンラインの視覚的理解と、言語モデルからの非政治的なスロー思考推論を組み合わせることで、セミ・オフ・ポリティクスの行動モデルを構築している。 8Bおよび38BサイズのInternVL2.5およびInternVL3.0を用いた実験はSOPHIAの有効性を示した。
論文参考訳（メタデータ） (2025-07-22T17:59:34Z)
RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。 RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文参考訳（メタデータ） (2025-06-23T02:56:36Z)
Vision-EKIPL: External Knowledge-Infused Policy Learning for Visual Reasoning [17.421901873720156]
本稿では,textbfVision-EKIPLと呼ばれる新しいRLフレームワークを提案する。 RLトレーニングプロセス中に外部補助モデルによって生成された高品質なアクションを導入し、ポリシーモデルの最適化を導く。最先端(SOTA)と比較して、Reason-RFT-CoTベンチマークで最大5%の性能改善を実現している。
論文参考訳（メタデータ） (2025-06-07T16:37:46Z)
Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective [6.069069082518759]
大規模言語モデル(LLM)の強化学習におけるゼロ・リワード推定について検討する。反応レベル報酬モデルのみを用いて、真で未知のトークンレベルの報酬に基づくポリシー勾配を不偏に推定できることを示す。我々は,新しいアルゴリズム,Token-Reinforced Policy Optimization (TRePO)を提案する。
論文参考訳（メタデータ） (2025-06-03T07:44:31Z)
Training Large Language Models to Reason via EM Policy Gradient [0.27195102129094995]
LLM推論を強化するために、政治以外の強化学習アルゴリズムEM Policy Gradientを導入する。 GSM8KとMATH(HARD)データセットに対するEM Policy Gradientの有効性を評価する。本手法で微調整したモデルでは, サブプロブレム分解, 自己検証, バックトラッキングなどの認知行動を示す。
論文参考訳（メタデータ） (2025-04-24T01:31:05Z)
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,LLMの推論能力の向上に成功している。我々は、この仮定を再検討し、pass@textitkメトリックを大量のtextitk値で測定し、モデルの推論能力境界を探索する。我々は、RLがエノノット、事実、根本的に新しい推論パターンを誘発することを発見した。
論文参考訳（メタデータ） (2025-04-18T17:59:56Z)
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文参考訳（メタデータ） (2025-04-15T16:15:02Z)
Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文参考訳（メタデータ） (2025-02-24T08:11:33Z)
LUNAR: LLM Unlearning via Neural Activation Redirection [20.60687563657169]
大規模言語モデル(LLM)は、はるかに大量のテキストデータのトレーニングの恩恵を受けるが、個人情報を漏洩するリスクはますます高まっている。線形表現仮説に基づく新しいアンラーニング手法であるLUNARを提案する。我々は,LUNARが,推論中の未学習モデルの制御性を著しく向上しつつ,最先端の未学習性能を達成することを示す。
論文参考訳（メタデータ） (2025-02-11T03:23:22Z)
SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルに基づくオフライン強化学習は、事前コンパイルされたデータセットと学習環境モデルを使用してポリシーを訓練する。本稿では,問題をモデルバイアスとポリシーシフトという2つの基本要素に分解する包括的分析を行う。本稿では,モデルに基づくオフライン強化学習(SAMBO-RL)について紹介する。
論文参考訳（メタデータ） (2024-08-23T04:25:09Z)
SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文参考訳（メタデータ） (2023-10-09T17:56:53Z)
Imitating, Fast and Slow: Robust learning from demonstrations via decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。 IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-04-07T17:16:52Z)
False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。 SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文参考訳（メタデータ） (2021-10-24T15:34:03Z)
Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文参考訳（メタデータ） (2021-02-25T21:33:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。