論文の概要: Reuse your FLOPs: Scaling RL on Hard Problems by Conditioning on Very Off-Policy Prefixes
- arxiv url: http://arxiv.org/abs/2601.18795v2
- Date: Tue, 03 Feb 2026 18:58:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.784102
- Title: Reuse your FLOPs: Scaling RL on Hard Problems by Conditioning on Very Off-Policy Prefixes
- Title(参考訳): FLOPを再利用する: 極端にオフポリティックなプレフィックスの条件付けによるハード問題へのRLのスケーリング
- Authors: Amrith Setlur, Zijian Wang, Andrew Cohen, Paria Rashidinejad, Sang Michael Xie,
- Abstract要約: 我々はPrefixRLを導入し、そこでは、成功裏のトレースのプレフィックスを条件にし、それらを完了させるために、オンデマンドのRLを実行します。
PrefixRLは、問題の難易度を政治外接頭辞の長さで調節することで、難しい問題に対する学習信号を強化する。
我々はPrefixRLの目的が標準RLの目的と一致しているだけでなく、より効率的なことを証明する。
- 参考スコア(独自算出の注目度): 22.721425502443253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typical reinforcement learning (RL) methods for LLM reasoning waste compute on hard problems, where correct on-policy traces are rare, policy gradients vanish, and learning stalls. To bootstrap more efficient RL, we consider reusing old sampling FLOPs (from prior inference or RL training) in the form of off-policy traces. Standard off-policy methods supervise against off-policy data, causing instabilities during RL optimization. We introduce PrefixRL, where we condition on the prefix of successful off-policy traces and run on-policy RL to complete them, side-stepping off-policy instabilities. PrefixRL boosts the learning signal on hard problems by modulating the difficulty of the problem through the off-policy prefix length. We prove that the PrefixRL objective is not only consistent with the standard RL objective but also more sample efficient. Empirically, we discover back-generalization: training only on prefixed problems generalizes to out-of-distribution unprefixed performance, with learned strategies often differing from those in the prefix. In our experiments, we source the off-policy traces by rejection sampling with the base model, creating a self-improvement loop. On hard reasoning problems, PrefixRL reaches the same training reward 2x faster than the strongest baseline (SFT on off-policy data then RL), even after accounting for the compute spent on the initial rejection sampling, and increases the final reward by 3x. The gains transfer to held-out benchmarks, and PrefixRL is still effective when off-policy traces are derived from a different model family, validating its flexibility in practical settings.
- Abstract(参考訳): LLMにおける廃棄物処理を困難な問題に推論するための典型的な強化学習(RL)手法は、正確な政治上の痕跡は稀であり、政策勾配は消滅し、学習台座は消滅する。
より効率的なRLをブートストラップするために、古いサンプリングFLOP(事前推論やRLトレーニングから)をオフポリシートレースの形で再利用することを検討する。
標準的なオフ・ポリティィ法は、オフ・ポリティィデータに対して監視し、RL最適化時に不安定を引き起こす。
本稿はPrefixRLについて紹介する。ここでは、成功した非政治的トレースのプレフィックスを条件として、それらを完遂するためにオンラインRLを実行し、一方、非政治的不安定さを横取りする。
PrefixRLは、問題の難易度を政治外接頭辞の長さで調節することで、難しい問題に対する学習信号を強化する。
我々はPrefixRLの目的が標準RLの目的と一致しているだけでなく、より標本効率が高いことを証明した。
経験的に、私たちはバックジェネリゼーションを発見し、プレフィックス付き問題のみのトレーニングは、アウト・オブ・ディストリビューション・アン・プレフィックスドのパフォーマンスに一般化し、学習戦略はプレフィックス内のものとしばしば異なる。
提案実験では, 基本モデルを用いた拒絶サンプリングを行い, 自己改善ループを作成することにより, 政治外の痕跡を抽出した。
ハード推論問題では、PrefixRLは、最初の拒絶サンプリングに費やされた計算を考慮に入れた後でも、最強のベースライン(以下、RLのSFT)よりも2倍早くトレーニング報酬を達成し、最終報酬を3倍に増やす。
PrefixRLは、別のモデルファミリから外部トレースが導出されて、実用的な設定でその柔軟性が検証される場合、依然として有効である。
関連論文リスト
- RePO: Bridging On-Policy Learning and Off-Policy Knowledge through Rephrasing Policy Optimization [40.41228010377401]
本稿では、政治外の知識と政治上のRLの安定性を両立させるためのリフレージング・ポリシー・オプティマイズ(RePO)を提案する。
RePOは、独自のスタイリスティックでパラメトリックな分布に適合する軌跡に、政治外の知識を言い換える。
いくつかのベンチマークの実験では、RePOがハードサンプルの利用を改善し、既存のベースラインを上回っていることが示されている。
論文 参考訳(メタデータ) (2026-02-11T13:02:40Z) - Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates [53.3717573880076]
JitRL(Just-In-Time Reinforcement Learning、ジャスト・イン・タイム強化学習)は、テスト時間ポリシーの最適化を可能にするトレーニング不要のフレームワークである。
JitRLは、経験の動的で非パラメトリックな記憶を維持し、関連する軌跡を取得して、オンザフライでのアクションの利点を推定する。
WebArenaとJerrichoの実験では、JitRLがトレーニング不要メソッドの間に新しい最先端技術を確立していることが示されている。
論文 参考訳(メタデータ) (2026-01-26T14:16:51Z) - RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization [65.23034604711489]
大規模な推論モデルをトレーニングするための自己改善フレームワークであるRLoopを紹介します。
RLoopはまず、RLを使用して所定のポリシからソリューション空間を探索し、成功したトラジェクトリをフィルタリングしてエキスパートデータセットを作成する。
実験の結果、RLoopsは一般化を忘れて大幅に改善し、平均精度は9%、pass@32はバニラRLに比べて15%以上向上した。
論文 参考訳(メタデータ) (2025-11-06T11:27:16Z) - The Courage to Stop: Overcoming Sunk Cost Fallacy in Deep Reinforcement Learning [19.01686700722506]
オフ政治深層学習(RL)は、通常、学習中に過去の経験を再利用するためにリプレイバッファを利用する。
このような非形式的で無駄なトランジションをサンプリングすることは、沈むコストの低下に対処することで回避できる、と我々は主張する。
本稿では,戦略的早期終了を可能にする軽量なメカニズムであるLearning to Stop (LEAST)を提案する。
論文 参考訳(メタデータ) (2025-06-16T16:30:00Z) - Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。
ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。
本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文 参考訳(メタデータ) (2025-03-24T17:51:39Z) - Decoupled Prioritized Resampling for Offline RL [114.73666323173204]
オフライン強化学習のためのオフライン優先体験再生(OPER)を提案する。
OPERは、高度に反転する遷移を優先するように設計された優先順位関数のクラスを備えており、トレーニング中により頻繁に訪問することができる。
優先順位関数のクラスは行動ポリシーの改善を誘導し、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムによりより良い解が得られる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。