論文の概要: RePO: Bridging On-Policy Learning and Off-Policy Knowledge through Rephrasing Policy Optimization
- arxiv url: http://arxiv.org/abs/2602.10819v1
- Date: Wed, 11 Feb 2026 13:02:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.91495
- Title: RePO: Bridging On-Policy Learning and Off-Policy Knowledge through Rephrasing Policy Optimization
- Title(参考訳): RePO: ポリシー最適化によるオン・ポリティ学習とオフ・ポリティ・ナレッジのブリッジ
- Authors: Linxuan Xia, Xiaolong Yang, Yongyuan Chen, Enyue Zhao, Deng Cai, Yasheng Wang, Boxi Wu,
- Abstract要約: 本稿では、政治外の知識と政治上のRLの安定性を両立させるためのリフレージング・ポリシー・オプティマイズ(RePO)を提案する。
RePOは、独自のスタイリスティックでパラメトリックな分布に適合する軌跡に、政治外の知識を言い換える。
いくつかのベンチマークの実験では、RePOがハードサンプルの利用を改善し、既存のベースラインを上回っていることが示されている。
- 参考スコア(独自算出の注目度): 40.41228010377401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models (LLMs) on domain-specific data remains a fundamental challenge. Supervised fine-tuning (SFT) offers a straightforward way to inject domain knowledge but often degrades the model's generality. In contrast, on-policy reinforcement learning (RL) preserves generality but fails to effectively assimilate hard samples that exceed the model's current reasoning level. Recent off-policy RL attempts improve hard sample utilization, yet they suffer from severe training instability due to the forced distribution shift toward off-policy knowledge. To reconcile effective off-policy knowledge absorption with the stability of on-policy RL, we propose Rephrasing Policy Optimization (RePO). In RePO, the policy model is prompted to first comprehend off-policy knowledge and then rephrase it into trajectories that conform to its own stylistic and parametric distribution. RePO dynamically replaces low-reward rollouts with these rephrased, high-quality trajectories. This strategy guides the model toward correct reasoning paths while strictly preserving on-policy training dynamics. Experiments on several benchmarks demonstrate that RePO improves hard-sample utilization and outperforms existing baselines, achieving state-of-the-art performance.
- Abstract(参考訳): ドメイン固有のデータに対する大きな言語モデル(LLM)のアラインメントは、依然として根本的な課題である。
Supervised Fine-tuning (SFT) はドメイン知識を注入する簡単な方法を提供するが、しばしばモデルの一般性を低下させる。
対照的に、オンライン強化学習(RL)は一般性を維持するが、モデルの現在の推論レベルを超えるハードサンプルを効果的に同化できない。
近年の非政治的RLの試みは, 厳密なサンプル利用の改善を図っているが, 独占的知識への強制的分布シフトにより, 厳しいトレーニング不安定に悩まされている。
実効的な非政治的知識吸収とオンラインRLの安定性を両立させるため,リフレージング政策最適化(RePO)を提案する。
RePOでは、ポリシーモデルがまず政治外の知識を理解し、それを独自のスタイリスティックかつパラメトリックな分布に適合した軌跡に言い換えるように促される。
RePOは、リフレージングされた高品質な軌道で、ローリワードロールアウトを動的に置き換える。
この戦略は、モデルを正しい推論パスへ導くと同時に、オン・ポリティクスのトレーニングダイナミクスを厳格に保存する。
いくつかのベンチマークの実験では、RePOがハードサンプル利用を改善し、既存のベースラインを上回り、最先端のパフォーマンスを達成することが示されている。
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends [64.71326476563213]
大規模言語モデル(LLM)の非政治強化学習が注目されている。
本稿では,特定のトレーニングデータ分布を仮定することなく,グループ化型REINFORCEの第一原理導出について述べる。
この観点は、REINFORCEを非政治的な設定に適応するための2つの一般的な原則をもたらす。
論文 参考訳(メタデータ) (2025-09-29T02:34:54Z) - On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文 参考訳(メタデータ) (2025-05-29T15:58:04Z) - Soft Policy Optimization: Online Off-Policy RL for Sequence Models [42.95110169230739]
言語モデルのポストトレーニングは、ほとんどPPOのようなオン・ポリティクス・メソッドを使って行われる。
SPOは、任意のオンラインおよびオフライン軌跡から学習可能なシーケンスモデルポリシーのための、シンプルでスケーラブルで原則化されたSoft RL手法である。
論文 参考訳(メタデータ) (2025-03-07T14:23:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。