論文の概要: ASymPO: Asymmetric-Scale Policy Optimization for Asynchronous LLM Post-Training Without Behavior Information
- arxiv url: http://arxiv.org/abs/2606.03070v2
- Date: Thu, 04 Jun 2026 01:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 19:21:33.107956
- Title: ASymPO: Asymmetric-Scale Policy Optimization for Asynchronous LLM Post-Training Without Behavior Information
- Title(参考訳): ASymPO: Asymmetric-Scale Policy Optimization for Asynchronous LLM post-Training without behavior information
- Authors: Zehua Liu, Yuxuan Yao, Xiaojin Fu, Tao Zhong, Mingxuan Yuan,
- Abstract要約: 非同期強化学習は、ポリシー最適化から応答生成を分離することで、言語モデル後学習のスループットを向上させることができる。
標準的な行動補正法は、行動政治の確率、重要度、またはクリップによってこのドリフトを制御する。
本稿では,各応答のトークン損失を,現在の平均トークン負の対数確率で正規化する非対称スケールポリシー最適化(ASymPO)を提案する。
- 参考スコア(独自算出の注目度): 23.079849709472583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Asynchronous reinforcement learning can improve language-model post-training throughput by decoupling response generation from policy optimization, but stale responses introduce distribution drift. Standard behavior-corrected methods control this drift with behavior-policy probabilities, importance ratios, or clipping, which requires token-aligned, versioned, and numerically consistent behavior log-probabilities across rollout and learner systems. We ask whether asynchronous group-relative RL can instead be stabilized using only current-policy probabilities. We identify a scale-imbalance failure mode: when stale responses are evaluated under the current policy, positive and negative loss terms can appear at different negative log-probability scales, so zero-sum advantages no longer imply balanced loss contributions. We propose Asymmetric-Scale Policy Optimization (ASymPO), which normalizes each response's token loss by its current average token negative log-probability. ASymPO requires no behavior-policy probabilities, restores response-level zero-sum balance, and preserves a nonzero learning signal. We also introduce Scaled Policy Optimization (SPO), a fixed negative-scaling baseline, and evaluate both current-policy-only objectives in asynchronous mathematical reasoning post-training.
- Abstract(参考訳): 非同期強化学習は、ポリシー最適化から応答生成を分離することで、言語モデル後学習のスループットを向上させることができるが、古い応答は分散ドリフトをもたらす。
標準的な行動補正手法は、トークン整列、バージョニング、数値的に一貫した振る舞いログ確率をロールアウトと学習システム全体で要求する、行動政治確率、重要度、クリッピングでこのドリフトを制御する。
非同期なグループ相対的RLは、現在の政治確率のみを用いて安定化できるかどうかを問う。
安定応答が現在の方針の下で評価されると、負の損失項と負の損失項が異なる負の対数確率尺度で現れるので、ゼロサムの利点はもはやバランスの取れた損失の寄与を示唆しない。
本稿では,各応答のトークン損失を,現在の平均トークン負の対数確率で正規化する非対称スケールポリシー最適化(ASymPO)を提案する。
ASymPOは振舞いの確率を必要とせず、応答レベルのゼロサムバランスを回復し、非ゼロ学習信号を保存する。
また、固定された負スケーリングベースラインであるスケールドポリシー最適化(SPO)を導入し、学習後の非同期数学的推論において、現在の政治のみの目的の両方を評価する。
関連論文リスト
- One-Way Policy Optimization for Self-Evolving LLMs [63.8638342097375]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLMs)の推論能力を拡張するための,有望なパラダイムとなっている。
本稿では,最適化方向を更新等級から切り離す手法である1-Way Policy Optimization (OWPO)を提案する。
実験の結果,OWPOはDAPO,OPD,MOPDなどの強いベースラインより優れていた。
論文 参考訳(メタデータ) (2026-05-21T08:25:27Z) - Stochastic MeanFlow Policies: One-Step Generative Control with Entropic Mirror Descent [53.828537014796574]
オンラインの非政治強化学習(RL)は、ポリシークラスと更新ルールの2つの選択肢によって構成されている。
我々は、MeanFlow変換を通じてノイズをアクションにマッピングする一段階生成ポリシークラスであるMeanFlow Policiesを提案する。
7つのMuJoCoベンチマークで、Sは1ステップの推論効率を維持しながら、ガウスおよび生成ベースラインを改善する。
論文 参考訳(メタデータ) (2026-05-20T15:14:14Z) - Stabilized neural Hamilton--Jacobi--Bellman solvers: Error analysis and applications in model-based reinforcement learning [3.8280665730760366]
ハミルトン-ヤコビ-ベルマン方程式の理論はモデルに基づく強化学習に適用できる。
我々は、グリッドベースの値未知を回避しつつ、安定化された有限差分ポリシー評価構造を保存するハイブリッドシステムを開発する。
64次元までのコンパクト制御LQRの実験、アレン・カーン制御、振り子、ホッパー、および3Dクアロータのベンチマークは、代表的なモデルベースとモデルフリーのRLベースラインと比較する。
論文 参考訳(メタデータ) (2026-05-08T01:48:02Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。