論文の概要: Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction
- arxiv url: http://arxiv.org/abs/2605.12070v1
- Date: Tue, 12 May 2026 12:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.8661
- Title: Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction
- Title(参考訳): 非同期エージェントRLにおける古いログの欠失:意味的ミスマッチとオフポリケーション補正法
- Authors: Zhong Guan, Yongjian Guo, Haoran Sun, Wen Huang, Shuai Di, Xiong Jun Wu, Likang Wu, Hongke Zhao,
- Abstract要約: 非同期強化学習は、大規模言語モデルエージェントのロールアウトスループットを改善する。
また、PPOスタイルのオフポリシー修正のための重要な障害モードも導入している。
更新の遅れや部分的なロールアウトを伴う実用的なパイプラインでは,必要なトレーニング側ロジットが失われることがよくあります。
- 参考スコア(独自算出の注目度): 27.34307252485658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Asynchronous reinforcement learning improves rollout throughput for large language model agents by decoupling sample generation from policy optimization, but it also introduces a critical failure mode for PPO-style off-policy correction. In heterogeneous training systems, the total importance ratio should ideally be decomposed into two semantically distinct factors: a \emph{training--inference discrepancy term} that aligns inference-side and training-side distributions at the same behavior-policy version, and a \emph{policy-staleness term} that constrains the update from the historical policy to the current policy. We show that practical asynchronous pipelines with delayed updates and partial rollouts often lose the required historical training-side logits, or old logits. This missing-old-logit problem entangles discrepancy repair with staleness correction, breaks the intended semantics of decoupled correction, and makes clipping and masking thresholds interact undesirably. To address this issue, we study both exact and approximate correction routes. We propose three exact old-logit acquisition strategies: snapshot-based version tracking, a dedicated old-logit model, and synchronization via partial rollout interruption, and compare their system trade-offs. From the perspective of approximate correction, we focus on preserving the benefits of decoupled correction through a more appropriate approximate policy when exact old logits cannot be recovered at low cost, without incurring extra system overhead. Following this analysis, we adopt a revised PPO-EWMA method, which achieves significant gains in both training speed and optimization performance. Code at https://github.com/millioniron/ROLL.
- Abstract(参考訳): 非同期強化学習は、政策最適化からサンプル生成を分離することで、大規模言語モデルエージェントのロールアウトスループットを向上させるが、PPOスタイルのオフポリシー修正のための重要な障害モードも導入する。
不均質な訓練システムでは、全重要度は、2つの意味的に区別された要因に分解されるべきである: 推論側とトレーニング側を同一の行動-政治バージョンで整列する \emph{training-inference discrepancy term} と、歴史的政策から現在の政策への更新を制限する \emph{policy-staleness term} である。
更新の遅れや部分的なロールアウトを伴う実用的な非同期パイプラインは、必要な履歴トレーニング側ロジットや古いロジットを失うことがよくあります。
この欠落した論理的問題は、不一致の修復を不安定な修正で絡み、分離された修正の意図した意味を破り、クリッピングとマスキングのしきい値が好ましくない相互作用をさせる。
この問題に対処するために,正確な補正経路と近似補正経路について検討する。
我々は、スナップショットベースのバージョントラッキング、専用の古ログモデル、部分的なロールアウト中断による同期の3つの正確な古ログ取得戦略を提案し、システムトレードオフを比較した。
近似補正の観点からは、システムオーバーヘッドを余分に発生させることなく、正確な古いログを低コストで回収できない場合に、より適切な近似ポリシーによりデカップリング補正の利点を維持することに重点を置いている。
そこで本研究では,PPO-EWMA法を改良し,学習速度と最適化性能の両面で有意な向上を実現した。
コードネームはhttps://github.com/millioniron/ROLL。
関連論文リスト
- Trust the Batch, On- or Off-Policy: Adaptive Policy Optimization for RL Post-Training [50.86545293331458]
強化学習は、教師付き学習よりも構造的に難しい。
本稿では,固定クリッピングを政策比率の正規化された有効サンプルサイズに置き換える,単純かつ効果的なバッチ適応目的を提案する。
論文 参考訳(メタデータ) (2026-05-12T16:44:47Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training [18.849117699859622]
訓練安定性は、大規模言語モデルの強化学習における中心的な課題である。
変動周波数レベルのソフトポリシー最適化(VESPO)を提案する。
数学的推論ベンチマークの実験では、VESPOは安定なトレーニングを64倍の安定度と完全な非同期実行で維持している。
論文 参考訳(メタデータ) (2026-02-11T09:48:08Z) - Mind the Gap: Data Rewriting for Stable Off-Policy Supervised Fine-Tuning [33.899779762210976]
大規模言語モデルの教師付き微調整(SFT)は、非政治的な学習問題と見なすことができる。
既存の方法では、ギャップを積極的に減らすのではなく、パッシブに更新するKLペナルティやクリッピングによってこの問題を軽減する。
本稿では,トレーニング前の政策ギャップを積極的に縮小する,シンプルで効果的なデータ書き換えフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-18T17:02:30Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - Gumbel Reranking: Differentiable End-to-End Reranker Optimization [61.16471123356738]
RAGシステムは関連する文書を識別するためにリランカーに依存している。
注釈付きクエリ-ドキュメントペアが不足しているため、これらのモデルの微調整は依然として難しい。
我々は,トレーニングと推論のギャップを最小限に抑えることを目的とした,リランカーのためのエンドツーエンドのトレーニングフレームワークであるGumbel Re rankを提案する。
論文 参考訳(メタデータ) (2025-02-16T13:23:39Z) - Averaging log-likelihoods in direct alignment [43.77763433288893]
本稿では,RL問題に対する最適ポリシーを与える最適演算子で構成する,新しい平均演算子を提案する。
このような平均化の効果を実証的に研究し、世代長とスコアのトレードオフを観察する。
論文 参考訳(メタデータ) (2024-06-27T14:07:38Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。