論文の概要: Jackpot: Optimal Budgeted Rejection Sampling for Extreme Actor-Policy Mismatch Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.06107v1
- Date: Thu, 05 Feb 2026 18:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.055257
- Title: Jackpot: Optimal Budgeted Rejection Sampling for Extreme Actor-Policy Mismatch Reinforcement Learning
- Title(参考訳): Jackpot: 極端アクター・ポリシィ・ミスマッチ強化学習のための最適予算削減サンプリング
- Authors: Zhuoming Chen, Hongyi Liu, Yang Zhou, Haizhong Zheng, Beidi Chen,
- Abstract要約: Jackpotは、ポリシーとロールアウトモデルを共同で更新する統合トレーニング目標を統合するフレームワークである。
我々の理論的分析は、OBRSが制御可能な受理予算の下で、目標分布に近いロールアウト分布を一貫して移動していることを示している。
- 参考スコア(独自算出の注目度): 31.843129392507716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) for large language models (LLMs) remains expensive, particularly because the rollout is expensive. Decoupling rollout generation from policy optimization (e.g., leveraging a more efficient model to rollout) could enable substantial efficiency gains, yet doing so introduces a severe distribution mismatch that destabilizes learning. We propose Jackpot, a framework that leverages Optimal Budget Rejection Sampling (OBRS) to directly reduce the discrepancy between the rollout model and the evolving policy. Jackpot integrates a principled OBRS procedure, a unified training objective that jointly updates the policy and rollout models, and an efficient system implementation enabled by top-$k$ probability estimation and batch-level bias correction. Our theoretical analysis shows that OBRS consistently moves the rollout distribution closer to the target distribution under a controllable acceptance budget. Empirically, \sys substantially improves training stability compared to importance-sampling baselines, achieving performance comparable to on-policy RL when training Qwen3-8B-Base for up to 300 update steps of batchsize 64. Taken together, our results show that OBRS-based alignment brings us a step closer to practical and effective decoupling of rollout generation from policy optimization for RL for LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)のための強化学習(RL)は、特にロールアウトが高価であるため、高価である。
ポリシー最適化(例えば、より効率的なモデルをロールアウトに活用するなど)からロールアウト生成を分離することで、大幅な効率向上が可能になる。
我々は、最適予算削減サンプリング(OBRS)を活用するフレームワークであるJackpotを提案し、ロールアウトモデルと進化するポリシーの相違を直接軽減する。
Jackpotは、原則的なOBRS手順、ポリシーとロールアウトモデルを共同で更新する統一的なトレーニング目標、およびトップ$kの確率推定とバッチレベルのバイアス補正によって実現された効率的なシステム実装を統合する。
我々の理論的分析は、OBRSが制御可能な受理予算の下で、目標分布に近いロールアウト分布を一貫して移動していることを示している。
実証的には、‘sys’は重要サンプリングベースラインと比較してトレーニングの安定性を大幅に改善し、Qwen3-8B-Baseを最大300回のバッチサイズ64の更新ステップでトレーニングする際のオンポリケーションRLに匹敵するパフォーマンスを実現している。
その結果, OBRSをベースとしたアライメントは, LLMのポリシー最適化からロールアウト生成の実用的で効果的な分離に一歩近づいた。
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - CoBA-RL: Capability-Oriented Budget Allocation for Reinforcement Learning in LLMs [31.371566320424552]
CoBA-RLは、モデルの進化能力に基づいて、ロールアウト予算を適応的に割り当てるように設計された強化学習アルゴリズムである。
我々のアプローチは、探索と搾取の間のトレードオフを効果的に編成し、一貫した一般化の改善を提供する。
論文 参考訳(メタデータ) (2026-02-03T03:14:36Z) - Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards [26.5011687714416]
既存のグループベースのポリシー最適化手法は、すべてのトレーニングプロンプトに対して一定数のロールアウトを割り当てる。
この均一な割り当ては全てのプロンプトを等しく情報的扱いし、非効率的な計算予算の使用と訓練の進捗を妨げる可能性がある。
本稿では、既存のバッチのプロンプトに所定のロールアウト予算を割り当て、ポリシー更新のグラデーションのばらつきを最小限に抑える可変インフォームド予測割当戦略であるVIPを紹介する。
論文 参考訳(メタデータ) (2026-02-02T03:50:01Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。