論文の概要: LLMs Can Learn to Reason Via Off-Policy RL
- arxiv url: http://arxiv.org/abs/2602.19362v1
- Date: Sun, 22 Feb 2026 22:12:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.609175
- Title: LLMs Can Learn to Reason Via Off-Policy RL
- Title(参考訳): LLMはオフ・ポリティクスのRLを学べる
- Authors: Daniel Ritter, Owen Oertell, Bradley Guo, Jonathan Chang, Kianté Brantley, Wen Sun,
- Abstract要約: LLM(Large Language Models)の強化学習アプローチでは、PPOやGRPOといった政治アルゴリズムが頻繁に使用される。
タグ付き推論ポリシー(OAPL)を用いた最適アドバンテージに基づく政策最適化法(OAPL)を提案する。
OAPLは、トレーニングと推論ポリシーの間に400段階以上の段階の遅れがあっても、効果的で効果的な後トレーニングを可能にします。
- 参考スコア(独自算出の注目度): 17.2941334301927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) approaches for Large Language Models (LLMs) frequently use on-policy algorithms, such as PPO or GRPO. However, policy lag from distributed training architectures and differences between the training and inference policies break this assumption, making the data off-policy by design. To rectify this, prior work has focused on making this off-policy data appear more on-policy, either via importance sampling (IS), or by more closely aligning the training and inference policies by explicitly modifying the inference engine. In this work, we embrace off-policyness and propose a novel off-policy RL algorithm that does not require these modifications: Optimal Advantage-based Policy Optimization with Lagged Inference policy (OAPL). We show that OAPL outperforms GRPO with importance sampling on competition math benchmarks, and can match the performance of a publicly available coding model, DeepCoder, on LiveCodeBench, while using 3x fewer generations during training. We further empirically demonstrate that models trained via OAPL have improved test time scaling under the Pass@k metric. OAPL allows for efficient, effective post-training even with lags of more than 400 gradient steps between the training and inference policies, 100x more off-policy than prior approaches.
- Abstract(参考訳): 大規模言語モデル(LLM)に対する強化学習(RL)アプローチは、PPOやGRPOといった政治アルゴリズムを頻繁に使用する。
しかし、分散トレーニングアーキテクチャからのポリシー遅延と、トレーニングと推論のポリシーの違いは、この前提を破り、設計によってデータは非政治的になる。
これを修正するために、事前の作業は、重要サンプリング(IS)を通じて、あるいは推論エンジンを明示的に修正することで、トレーニングと推論ポリシーをより緊密に調整することで、このオフ・ポリティクスデータをより政治的に見せることに重点を置いている。
本研究は、非政治性を受け入れ、これらの修正を必要としない新しい非政治的RLアルゴリズムを提案する: タグ付き推論ポリシー(OAPL)による最適アドバンテージに基づくポリシー最適化。
OAPL は GRPO よりも性能が優れており,性能はLiveCodeBench 上で公開コードモデルである DeepCoder に匹敵するが,トレーニング中に 3 世代より少ない。
我々はさらに、OAPLでトレーニングされたモデルがPass@kメトリックでテスト時間スケーリングを改善したことを実証的に実証した。
OAPLは、トレーニングと推論ポリシーの間に400段階以上の段階の遅れがあっても、効果的で効果的な後トレーニングを可能にします。
関連論文リスト
- SOUP: Token-level Single-sample Mix-policy Reinforcement Learning for Large Language Models [67.41779761651924]
SOUPは、トークンレベルで個々のサンプル内でオフとオンの学習を統合するフレームワークである。
標準のオン・ポリティクス・トレーニングと既存のオフ・ポリティクス・エクステンションを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-29T09:56:15Z) - On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文 参考訳(メタデータ) (2025-05-29T15:58:04Z) - Soft Policy Optimization: Online Off-Policy RL for Sequence Models [42.95110169230739]
言語モデルのポストトレーニングは、ほとんどPPOのようなオン・ポリティクス・メソッドを使って行われる。
SPOは、任意のオンラインおよびオフライン軌跡から学習可能なシーケンスモデルポリシーのための、シンプルでスケーラブルで原則化されたSoft RL手法である。
論文 参考訳(メタデータ) (2025-03-07T14:23:40Z) - Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [43.77763433288893]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。
本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。
提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文 参考訳(メタデータ) (2024-06-27T14:03:49Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。