Fugu-MT 論文翻訳(概要): LLMs Can Learn to Reason Via Off-Policy RL

論文の概要: LLMs Can Learn to Reason Via Off-Policy RL

arxiv url: http://arxiv.org/abs/2602.19362v1
Date: Sun, 22 Feb 2026 22:12:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.609175
Title: LLMs Can Learn to Reason Via Off-Policy RL
Title（参考訳）: LLMはオフ・ポリティクスのRLを学べる
Authors: Daniel Ritter, Owen Oertell, Bradley Guo, Jonathan Chang, Kianté Brantley, Wen Sun,
Abstract要約: LLM(Large Language Models)の強化学習アプローチでは、PPOやGRPOといった政治アルゴリズムが頻繁に使用される。タグ付き推論ポリシー(OAPL)を用いた最適アドバンテージに基づく政策最適化法(OAPL)を提案する。 OAPLは、トレーニングと推論ポリシーの間に400段階以上の段階の遅れがあっても、効果的で効果的な後トレーニングを可能にします。
参考スコア（独自算出の注目度）: 17.2941334301927
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) approaches for Large Language Models (LLMs) frequently use on-policy algorithms, such as PPO or GRPO. However, policy lag from distributed training architectures and differences between the training and inference policies break this assumption, making the data off-policy by design. To rectify this, prior work has focused on making this off-policy data appear more on-policy, either via importance sampling (IS), or by more closely aligning the training and inference policies by explicitly modifying the inference engine. In this work, we embrace off-policyness and propose a novel off-policy RL algorithm that does not require these modifications: Optimal Advantage-based Policy Optimization with Lagged Inference policy (OAPL). We show that OAPL outperforms GRPO with importance sampling on competition math benchmarks, and can match the performance of a publicly available coding model, DeepCoder, on LiveCodeBench, while using 3x fewer generations during training. We further empirically demonstrate that models trained via OAPL have improved test time scaling under the Pass@k metric. OAPL allows for efficient, effective post-training even with lags of more than 400 gradient steps between the training and inference policies, 100x more off-policy than prior approaches.
Abstract（参考訳）: 大規模言語モデル(LLM)に対する強化学習(RL)アプローチは、PPOやGRPOといった政治アルゴリズムを頻繁に使用する。しかし、分散トレーニングアーキテクチャからのポリシー遅延と、トレーニングと推論のポリシーの違いは、この前提を破り、設計によってデータは非政治的になる。これを修正するために、事前の作業は、重要サンプリング(IS)を通じて、あるいは推論エンジンを明示的に修正することで、トレーニングと推論ポリシーをより緊密に調整することで、このオフ・ポリティクスデータをより政治的に見せることに重点を置いている。本研究は、非政治性を受け入れ、これらの修正を必要としない新しい非政治的RLアルゴリズムを提案する: タグ付き推論ポリシー(OAPL)による最適アドバンテージに基づくポリシー最適化。 OAPL は GRPO よりも性能が優れており,性能はLiveCodeBench 上で公開コードモデルである DeepCoder に匹敵するが,トレーニング中に 3 世代より少ない。我々はさらに、OAPLでトレーニングされたモデルがPass@kメトリックでテスト時間スケーリングを改善したことを実証的に実証した。 OAPLは、トレーニングと推論ポリシーの間に400段階以上の段階の遅れがあっても、効果的で効果的な後トレーニングを可能にします。

関連論文リスト

Align and Filter: Improving Performance in Asynchronous On-Policy RL [27.989398323927393]
分散学習と高頻度更新によるポリシラグの発生源を同定する。本稿では,政策ラグを軽減するための実践的アプローチとして,テクスト変動に基づく制約付きポリシー最適化を提案する。
論文参考訳（メタデータ） (2026-03-02T01:52:34Z)
Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。 DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文参考訳（メタデータ） (2026-02-04T18:59:04Z)
SOUP: Token-level Single-sample Mix-policy Reinforcement Learning for Large Language Models [67.41779761651924]
SOUPは、トークンレベルで個々のサンプル内でオフとオンの学習を統合するフレームワークである。標準のオン・ポリティクス・トレーニングと既存のオフ・ポリティクス・エクステンションを一貫して上回っている。
論文参考訳（メタデータ） (2026-01-29T09:56:15Z)
Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends [64.71326476563213]
大規模言語モデル(LLM)の非政治強化学習が注目されている。本稿では,特定のトレーニングデータ分布を仮定することなく,グループ化型REINFORCEの第一原理導出について述べる。この観点は、REINFORCEを非政治的な設定に適応するための2つの一般的な原則をもたらす。
論文参考訳（メタデータ） (2025-09-29T02:34:54Z)
On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。 OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文参考訳（メタデータ） (2025-05-29T15:58:04Z)
Soft Policy Optimization: Online Off-Policy RL for Sequence Models [42.95110169230739]
言語モデルのポストトレーニングは、ほとんどPPOのようなオン・ポリティクス・メソッドを使って行われる。 SPOは、任意のオンラインおよびオフライン軌跡から学習可能なシーケンスモデルポリシーのための、シンプルでスケーラブルで原則化されたSoft RL手法である。
論文参考訳（メタデータ） (2025-03-07T14:23:40Z)
Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文参考訳（メタデータ） (2024-12-09T17:28:03Z)
Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [43.77763433288893]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文参考訳（メタデータ） (2024-06-27T14:03:49Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。