論文の概要: OBLR-PO: A Theoretical Framework for Stable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.23310v1
- Date: Fri, 28 Nov 2025 16:09:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.973871
- Title: OBLR-PO: A Theoretical Framework for Stable Reinforcement Learning
- Title(参考訳): OBLR-PO:安定強化学習のための理論的枠組み
- Authors: Zixun Huang, Jiayi Sheng, Zeyu Zheng,
- Abstract要約: 一般的な政策次数推定器の統計特性を特徴付ける統一理論フレームワークを提供する。
勾配の信号対雑音比(SNR)によって制御される適応的な学習率スケジュールを導出する。
さらに、分散-最適基底線が勾配重み付き推定器であることを示し、分散還元の新しい原理を提供する。
- 参考スコア(独自算出の注目度): 12.77713716713937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing reinforcement learning (RL)-based post-training methods for large language models have advanced rapidly, yet their design has largely been guided by heuristics rather than systematic theoretical principles. This gap limits our understanding of the properties of the gradient estimators and the associated optimization algorithms, thereby constraining opportunities to improve training stability and overall performance. In this work, we provide a unified theoretical framework that characterizes the statistical properties of commonly used policy-gradient estimators under mild assumptions. Our analysis establishes unbiasedness, derives exact variance expressions, and yields an optimization-loss upper bound that enables principled reasoning about learning dynamics. Building on these results, we prove convergence guarantees and derive an adaptive learning-rate schedule governed by the signal-to-noise ratio (SNR) of gradients. We further show that the variance-optimal baseline is a gradient-weighted estimator, offering a new principle for variance reduction and naturally enhancing stability beyond existing methods. These insights motivate Optimal Baseline and Learning-Rate Policy Optimization (OBLR-PO), an algorithm that jointly adapts learning rates and baselines in a theoretically grounded manner. Experiments on Qwen3-4B-Base and Qwen3-8B-Base demonstrate consistent gains over existing policy optimization methods, validating that our theoretical contributions translate into practical improvements in large-scale post-training.
- Abstract(参考訳): 既存の強化学習(RL)に基づく大規模言語モデルのポストトレーニング手法は急速に進歩しているが、その設計は体系的な理論原理ではなくヒューリスティックスによって導かれてきた。
このギャップは勾配推定器の特性とそれに伴う最適化アルゴリズムの理解を制限し、トレーニング安定性と全体的な性能を改善する機会を制限します。
本研究は, 温和な仮定の下でよく用いられる政策次数推定器の統計特性を特徴付ける統一的理論的枠組みを提供する。
我々の分析は不偏性を確立し、正確な分散式を導出し、学習力学の原理的推論を可能にする最適化余分な上限を与える。
これらの結果に基づいて収束保証を証明し、勾配の信号-雑音比(SNR)に支配される適応学習率スケジュールを導出する。
さらに, 分散最適基底線は勾配重み付き推定器であり, 分散低減のための新しい原理を提供し, 既存の手法を超えて安定性を自然に向上することを示した。
これらの知見は、理論的に基礎付けられた方法で学習率とベースラインを併用するアルゴリズムであるOBLR-PO(Optimal Baseline and Learning-Rate Policy Optimization)を動機付けている。
Qwen3-4B-BaseとQwen3-8B-Baseの実験は、既存の政策最適化手法よりも一貫した利得を示し、我々の理論的貢献が大規模ポストトレーニングの実践的改善につながることを検証した。
関連論文リスト
- AMStraMGRAM: Adaptive Multi-cutoff Strategy Modification for ANaGRAM [6.515592049126884]
ANaGRAMで最適化されたPINNのトレーニングダイナミクスを解析する。
本稿では,ANaGRAMの性能をさらに向上するマルチカット適応戦略を提案する。
論文 参考訳(メタデータ) (2025-10-14T09:10:42Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - A Variational Framework for Residual-Based Adaptivity in Neural PDE Solvers and Operator Learning [3.758814046658822]
残差ベースの適応戦略は機械学習で広く使われているが、多くは残っている。
残差の凸変換を統合することにより,これらの手法を形式化する統一的変分フレームワークを導入する。
本結果は,残差に基づく適応性の理論的正当性を提供し,原理的離散化と訓練戦略の基礎を確立した。
論文 参考訳(メタデータ) (2025-09-17T17:34:03Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Beyond variance reduction: Understanding the true impact of baselines on
policy optimization [24.09670734037029]
学習力学は損失関数の曲率と勾配推定の雑音によって制御されることを示す。
我々は,少なくとも包帯問題では,曲率や雑音が学習力学を説明するのに十分でないことを示す理論的結果を示す。
論文 参考訳(メタデータ) (2020-08-31T17:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。