論文の概要: Prosperity before Collapse: How Far Can Off-Policy RL Reach with Stale Data on LLMs?
- arxiv url: http://arxiv.org/abs/2510.01161v1
- Date: Wed, 01 Oct 2025 17:48:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.700733
- Title: Prosperity before Collapse: How Far Can Off-Policy RL Reach with Stale Data on LLMs?
- Title(参考訳): 崩壊前の繁栄:LLがLCMの静的データにどこまで到達できるか?
- Authors: Haizhong Zheng, Jiawei Zhao, Bedi Chen,
- Abstract要約: 古いデータは、適切に悪用された場合、政治上のデータと同じくらい情報的になり得ることを示す。
重み付けの第2モーメントを制約し, 極端外れ値のみを抑制するM2POを導入する。
M2POは、少なくとも256のモデル更新によってデータが不安定になっても、安定したオフポリシートレーニングを提供する。
- 参考スコア(独自算出の注目度): 10.869864570581647
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning has been central to recent advances in large language model reasoning, but most algorithms rely on on-policy training that demands fresh rollouts at every update, limiting efficiency and scalability. Asynchronous RL systems alleviate this by decoupling rollout generation from training, yet their effectiveness hinges on tolerating large staleness in rollout data, a setting where existing methods either degrade in performance or collapse. We revisit this challenge and uncover a prosperity-before-collapse phenomenon: stale data can be as informative as on-policy data if exploited properly. Building on this insight, we introduce M2PO (Second-Moment Trust Policy Optimization), which constrains the second moment of importance weights to suppress only extreme outliers while preserving informative updates. Notably, M2PO sharply reduces the fraction of clipped tokens under high staleness (from 1.22% to 0.06% over training), precisely masking high-variance tokens while maintaining stable optimization. Extensive evaluation across six models (from 1.7B to 32B) and eight benchmarks shows that M2PO delivers stable off-policy training even with data stale by at least 256 model updates and matches on-policy performance.
- Abstract(参考訳): 強化学習は、大規模な言語モデル推論の最近の進歩の中心であるが、ほとんどのアルゴリズムは、更新毎に新しいロールアウトを要求し、効率とスケーラビリティを制限した、政治上のトレーニングに依存している。
非同期RLシステムは、トレーニングからロールアウト生成を分離することでこれを緩和するが、その有効性は、既存のメソッドがパフォーマンスが低下するか、崩壊するかのどちらかで、ロールアウトデータの大きな安定化を許容することに集中する。
我々は、この課題を再考し、繁栄と崩壊の現象を明らかにします。
この知見に基づいて、重要な重み付けの第2モーメントの瞬間を制約し、情報的更新を保ちながら、極端な外れ値のみを抑えるM2PO(Second-Moment Trust Policy Optimization)を導入する。
特に、M2POは、高い安定度(トレーニングの1.22%から0.06%)で切り取られたトークンの割合を著しく減らし、安定な最適化を維持しながら、高精度に高分散トークンを隠蔽する。
6つのモデル (1.7Bから32B) と8つのベンチマークによる広範囲な評価は、M2POが少なくとも256のモデル更新によるデータの安定化や、オン・ポリティクスのパフォーマンスの一致を伴っても安定したオフ・ポリティクスのトレーニングを提供することを示している。
関連論文リスト
- Mind the Gap: Data Rewriting for Stable Off-Policy Supervised Fine-Tuning [33.899779762210976]
大規模言語モデルの教師付き微調整(SFT)は、非政治的な学習問題と見なすことができる。
既存の方法では、ギャップを積極的に減らすのではなく、パッシブに更新するKLペナルティやクリッピングによってこの問題を軽減する。
本稿では,トレーニング前の政策ギャップを積極的に縮小する,シンプルで効果的なデータ書き換えフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-18T17:02:30Z) - Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model [56.92219181993453]
本稿では,PPOやGRPOなどのオンラインRFT手法をオフ・ポリティクスデータに活用するために,Reincarnating Mix-policy Proximal Policy Gradient (ReMix)を提案する。
ReMix は,(1) 効率的なトレーニングのための更新データ(UTD)比が増大した混成政策勾配,(2) 安定性と柔軟性のトレードオフのバランスをとるためのKL-Convex 政策制約,(3) 効率的な早期学習から安定した改善へのシームレスな移行を実現するための政策再編成の3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2025-07-09T14:29:45Z) - ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining [53.893792844055106]
大規模言語モデルの事前学習は計算集約的であるが、多くのトークンが学習にわずかに寄与し、非効率になる。
Selective Efficient Language Modelingは、オンライントークンレベルのバッチ選択を行うことで、トレーニング効率と分散ロバスト性を改善するリスク認識アルゴリズムである。
GPT-2プレトレーニング実験の結果、ESLMはベースラインに比べて複雑度と下流性能の両面を維持・改善しながら、トレーニングFLOPを著しく低減することが示された。
論文 参考訳(メタデータ) (2025-05-26T12:23:26Z) - MAD-TD: Model-Augmented Data stabilizes High Update Ratio RL [20.22674077197914]
最近の研究は、新しいサンプルごとに多数の勾配ステップを持つニューラルネットワークの更新について検討している。
高い更新とデータの比率は、トレーニングプロセスに不安定をもたらす。
提案手法は,TD学習のためのモデル拡張データ (MAD-TD) である。
論文 参考訳(メタデータ) (2024-10-11T15:13:17Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。