論文の概要: Behaviour Policy Optimization: Provably Lower Variance Return Estimates for Off-Policy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.10843v1
- Date: Thu, 13 Nov 2025 23:06:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.356361
- Title: Behaviour Policy Optimization: Provably Lower Variance Return Estimates for Off-Policy Reinforcement Learning
- Title(参考訳): 行動政策最適化: オフ・ポリティクス強化学習における確率的低変数回帰推定
- Authors: Alexander W. Goodall, Edwin Hamel-De le Court, Francesco Belardinelli,
- Abstract要約: 我々は、よく設計された行動ポリシーを用いて、分散リターン推定を確実に低くするために、政治外のデータを収集できることを示します。
我々は、この重要な洞察を、政策評価と改善の両方がインターリーブされるオンライン強化学習環境に拡張する。
- 参考スコア(独自算出の注目度): 52.97053840476386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many reinforcement learning algorithms, particularly those that rely on return estimates for policy improvement, can suffer from poor sample efficiency and training instability due to high-variance return estimates. In this paper we leverage new results from off-policy evaluation; it has recently been shown that well-designed behaviour policies can be used to collect off-policy data for provably lower variance return estimates. This result is surprising as it means collecting data on-policy is not variance optimal. We extend this key insight to the online reinforcement learning setting, where both policy evaluation and improvement are interleaved to learn optimal policies. Off-policy RL has been well studied (e.g., IMPALA), with correct and truncated importance weighted samples for de-biasing and managing variance appropriately. Generally these approaches are concerned with reconciling data collected from multiple workers in parallel, while the policy is updated asynchronously, mismatch between the workers and policy is corrected in a mathematically sound way. Here we consider only one worker - the behaviour policy, which is used to collect data for policy improvement, with provably lower variance return estimates. In our experiments we extend two policy-gradient methods with this regime, demonstrating better sample efficiency and performance over a diverse set of environments.
- Abstract(参考訳): 多くの強化学習アルゴリズム、特に政策改善のためにリターン推定に依存するものは、高分散リターン推定によるサンプル効率の低下とトレーニング不安定性に悩まされる。
本稿では, 政策外評価の新たな成果を生かし, 適切に設計された行動ポリシーを用いて, 分散リターン推定を確実に下方修正できることを示す。
政治上のデータの収集が最適ではないという意味で、この結果は驚くべきものだ。
我々は、この重要な洞察を、最適政策を学ぶために、政策評価と改善の両方をインターリーブするオンライン強化学習環境に拡張する。
オフ・ポリティクスRLはよく研究されている(IMPALAなど)。
一般に、これらのアプローチは、複数のワーカーから収集したデータを並列に調整することに関心があり、ポリシーは非同期に更新され、労働者とポリシーのミスマッチは数学的に健全な方法で修正される。
ここでは、政策改善のためのデータ収集に使用される行動ポリシーを、明らかに分散リターン推定を低くする1人の労働者について検討する。
実験では,2つの政策段階の手法をこの方式で拡張し,多様な環境に対して,より優れたサンプル効率と性能を示す。
関連論文リスト
- Doubly Optimal Policy Evaluation for Reinforcement Learning [16.7091722884524]
政策評価は、しばしば大きなばらつきに悩まされ、望ましい精度を達成するために大量のデータを必要とする。
本研究では,データ収集ポリシーとデータ処理ベースラインの最適組み合わせを設計する。
理論的には、我々の二重最適政策評価法は偏りがなく、従来よりも分散度が低いことが保証されている。
論文 参考訳(メタデータ) (2024-10-03T05:47:55Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - On-Policy Policy Gradient Reinforcement Learning Without On-Policy Sampling [3.5253513747455303]
そこで本稿では,オンラインポリシー勾配アルゴリズムのデータ効率向上のための適応型オフポリシーサンプリング手法を提案する。
我々の手法であるPROPS(Proximal Robust On-Policy Smpling)は,データ収集によるサンプリング誤差を低減する。
論文 参考訳(メタデータ) (2023-11-14T16:37:28Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。