論文の概要: Trust the Batch, On- or Off-Policy: Adaptive Policy Optimization for RL Post-Training
- arxiv url: http://arxiv.org/abs/2605.12380v1
- Date: Tue, 12 May 2026 16:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:57.026304
- Title: Trust the Batch, On- or Off-Policy: Adaptive Policy Optimization for RL Post-Training
- Title(参考訳): バッチ・オン・オフ・ポリシの信頼:RLポストトライニングの適応的政策最適化
- Authors: Rasool Fakoor, Murdock Aubry, Nicholas Stranges, Alexander J. Smola,
- Abstract要約: 強化学習は、教師付き学習よりも構造的に難しい。
本稿では,固定クリッピングを政策比率の正規化された有効サンプルサイズに置き換える,単純かつ効果的なバッチ適応目的を提案する。
- 参考スコア(独自算出の注目度): 50.86545293331458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning is structurally harder than supervised learning because the policy changes the data distribution it learns from. The resulting fragility is especially visible in large-model training, where the training and rollout systems differ in numerical precision, sampling, and other implementation details. Existing methods manage this fragility by adding hyper-parameters to the training objective, which makes the algorithm more sensitive to its configuration and requires retuning whenever the task, model scale, or distribution mismatch changes. This fragility traces to two concerns that current objectives entangle through hyper-parameters set before training begins: a trust-region concern, that updates should not move the policy too far from its current value, and an off-policy concern, that data from older or different behavior policies should influence the update only to the extent that it remains reliable. Neither concern is a constant to set in advance, and their severity is reflected in the policy-ratio distribution of the current batch. We present a simple yet effective batch-adaptive objective that replaces fixed clipping with the normalized effective sample size of the policy ratios. The same statistic caps the score-function weight and sets the strength of an off-policy regularizer, so the update stays close to the usual on-policy score-function update when ratios are nearly uniform, and tightens automatically when stale or mismatched data cause ratio concentration, while retaining a nonzero learning signal on high-ratio tokens. Experiments across a wide range of settings show that our method matches or exceeds tuned baselines, introducing no new objective hyper-parameters and removing several existing ones. The code is available at https://github.com/FeynRL-project/FeynRL.
- Abstract(参考訳): 強化学習は、教師付き学習よりも構造的に難しい。
結果として生じる脆弱性は、大規模モデルのトレーニングにおいて特に見られ、トレーニングとロールアウトシステムは数値的な精度、サンプリング、その他の実装の詳細で異なる。
既存の手法では、トレーニング目標にハイパーパラメータを追加することで、この脆弱性を管理している。
この脆弱性は、現在の目標がトレーニング開始前に設定されたハイパーパラメータに絡み合うという2つの懸念に起因している: 信頼領域の懸念、更新はポリシーを現在の価値から遠ざかるべきではないという懸念と、古いまたは異なる行動ポリシーのデータがアップデートに影響を及ぼすのは、信頼性が保たれている程度に限られる、という政治的懸念である。
どちらの懸念も事前に設定するには一定ではなく、その深刻度は現在のバッチのポリシ比分布に反映される。
本稿では,固定クリッピングを政策比率の正規化された有効サンプルサイズに置き換える,単純かつ効果的なバッチ適応目的を提案する。
同じ統計量では、スコア関数の重量を上限とし、オフポリティ・レギュレータの強度を設定するため、比率がほぼ均一である場合、更新は通常のオンポリティ・スコア関数更新に近づき、ストールまたはミスマッチしたデータが比率集中の原因となる場合、非ゼロの学習信号を高比率トークンに保持しながら自動的に締め付ける。
幅広い設定で実験したところ、我々の手法はチューニングされたベースラインと一致し、新しい目的のハイパーパラメータを導入せず、既存のものを取り除いた。
コードはhttps://github.com/FeynRL-project/FeynRLで公開されている。
関連論文リスト
- Mind the Gap: Data Rewriting for Stable Off-Policy Supervised Fine-Tuning [33.899779762210976]
大規模言語モデルの教師付き微調整(SFT)は、非政治的な学習問題と見なすことができる。
既存の方法では、ギャップを積極的に減らすのではなく、パッシブに更新するKLペナルティやクリッピングによってこの問題を軽減する。
本稿では,トレーニング前の政策ギャップを積極的に縮小する,シンプルで効果的なデータ書き換えフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-18T17:02:30Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Normality-Guided Distributional Reinforcement Learning for Continuous Control [13.818149654692863]
平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。
本研究では,複数の連続制御タスクにおける値分布について検討し,学習した値分布が正常に近いことを実証的に確認した。
本稿では,標準値関数に存在しない値分布の構造的特性によって測定された正当性に基づくポリシー更新戦略を提案する。
論文 参考訳(メタデータ) (2022-08-28T02:52:10Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Relative Importance Sampling for off-Policy Actor-Critic in Deep Reinforcement Learning [32.66049977978746]
強化学習(RL)におけるオフ・ポリティクス学習は、オンライン・ポリティクス学習と比較して不安定性が高い
本研究では, 分散を緩和し, 学習を安定させる, スムーズな重要サンプリング, 特に相対重要サンプリング(RIS)を提案する。
提案手法は,OpenAI Gym課題と合成データセットに関するいくつかの最先端のRLベンチマークに匹敵する性能を示した。
論文 参考訳(メタデータ) (2018-10-30T07:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。