論文の概要: Align and Filter: Improving Performance in Asynchronous On-Policy RL
- arxiv url: http://arxiv.org/abs/2603.01365v1
- Date: Mon, 02 Mar 2026 01:52:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.646883
- Title: Align and Filter: Improving Performance in Asynchronous On-Policy RL
- Title(参考訳): Align and Filter: Asynchronous On-Policy RLのパフォーマンス向上
- Authors: Homayoun Honari, Roger Creus Castanyer, Michael Przystupa, Michael Noukhovitch, Pablo Samuel Castro, Glen Berseth,
- Abstract要約: 分散学習と高頻度更新によるポリシラグの発生源を同定する。
本稿では,政策ラグを軽減するための実践的アプローチとして,テクスト変動に基づく制約付きポリシー最適化を提案する。
- 参考スコア(独自算出の注目度): 27.989398323927393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributed training and increasing the gradient update frequency are practical strategies to accelerate learning and improve performance, but both exacerbate a central challenge: \textit{policy lag}, which is the mismatch between the behavior policy generating data and the learning policy being updated. Policy lag can hinder the scaling of on-policy learning algorithms to larger problems. In this paper, we identify the sources of policy lag caused by distributed learning and high update frequency. We use the findings to propose \textit{total Variation-based Advantage aligned Constrained policy Optimization (\methodacronym)} as a practical approach to mitigate policy lag. We empirically validate our method and show that it offers better robustness to policy lag in classic RL tasks and a modern RL for LLM math reasoning task.
- Abstract(参考訳): 分散トレーニングと勾配更新頻度の増大は、学習を加速し、パフォーマンスを向上させるための実践的戦略であるが、どちらも中心的な課題を悪化させる: \textit{policy lag} これは、行動ポリシー生成データと学習ポリシーの更新との不一致である。
政策遅延は、オンライン学習アルゴリズムの大規模化を妨げる可能性がある。
本稿では,分散学習と高頻度更新によるポリシラグの発生源を同定する。
本研究は,政策ラグを軽減するための実践的アプローチとして,<textit{total variation-based Advantage-aligned Constrained Policy Optimization (\methodacronym) を提案する。
提案手法を実証的に検証し,古典的RLタスクにおけるポリシーラグに対するロバスト性を向上し,LLM数学推論タスクのための現代的なRLを提供することを示す。
関連論文リスト
- LLMs Can Learn to Reason Via Off-Policy RL [17.2941334301927]
LLM(Large Language Models)の強化学習アプローチでは、PPOやGRPOといった政治アルゴリズムが頻繁に使用される。
タグ付き推論ポリシー(OAPL)を用いた最適アドバンテージに基づく政策最適化法(OAPL)を提案する。
OAPLは、トレーニングと推論ポリシーの間に400段階以上の段階の遅れがあっても、効果的で効果的な後トレーニングを可能にします。
論文 参考訳(メタデータ) (2026-02-22T22:12:51Z) - Improving Policy Exploitation in Online Reinforcement Learning with Instant Retrospect Action [10.983482150597913]
既存の価値に基づくオンライン強化学習(RL)アルゴリズムは、非効率な探索と遅れたポリシー更新によって、ポリシーの活用が遅くなる。
本稿では,これらの課題に対処するため,IRA(Instant Retrospect Action)と呼ばれるアルゴリズムを提案する。
IRAは8つのMuJoCo連続制御タスクにおけるオンラインRLアルゴリズムの学習効率と最終的なパフォーマンスを大幅に向上させることができる。
論文 参考訳(メタデータ) (2026-01-27T15:43:02Z) - Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。