論文の概要: On-Policy Policy Gradient Reinforcement Learning Without On-Policy Sampling
- arxiv url: http://arxiv.org/abs/2311.08290v2
- Date: Sun, 06 Oct 2024 23:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:11:18.810000
- Title: On-Policy Policy Gradient Reinforcement Learning Without On-Policy Sampling
- Title(参考訳): On-Policy Policy Gradient Reinforcement Learning without On-Policy Smpling
- Authors: Nicholas E. Corrado, Josiah P. Hanna,
- Abstract要約: そこで本稿では,オンラインポリシー勾配アルゴリズムのデータ効率向上のための適応型オフポリシーサンプリング手法を提案する。
我々の手法であるPROPS(Proximal Robust On-Policy Smpling)は,データ収集によるサンプリング誤差を低減する。
- 参考スコア(独自算出の注目度): 3.5253513747455303
- License:
- Abstract: On-policy reinforcement learning (RL) algorithms perform policy updates using i.i.d. trajectories collected by the current policy. However, after observing only a finite number of trajectories, on-policy sampling may produce data that fails to match the expected on-policy data distribution. This sampling error leads to noisy updates and data inefficient on-policy learning. Recent work in the policy evaluation setting has shown that non-i.i.d., off-policy sampling can produce data with lower sampling error than on-policy sampling can produce (Zhong et. al, 2022). Motivated by this observation, we introduce an adaptive, off-policy sampling method to improve the data efficiency of on-policy policy gradient algorithms. Our method, Proximal Robust On-Policy Sampling (PROPS), reduces sampling error by collecting data with a behavior policy that increases the probability of sampling actions that are under-sampled with respect to the current policy. We empirically evaluate PROPS on both continuous-action MuJoCo benchmark tasks as well discrete-action tasks and demonstrate that (1) PROPS decreases sampling error throughout training and (2) improves the data efficiency of on-policy policy gradient algorithms.
- Abstract(参考訳): オンライン強化学習(RL)アルゴリズムは、現在のポリシーによって収集された軌道を用いてポリシー更新を行う。
しかし、有限個の軌道のみを観測した後、オン・ポリティクス・サンプリングは期待されるオン・ポリティクスのデータ分布と一致しないデータを生成する可能性がある。
このサンプリングエラーは、ノイズの多い更新と、政治上の学習におけるデータ非効率につながる。
政策評価設定における最近の研究は、非政策サンプリングは、オンラインサンプリングよりもサンプリングエラーの少ないデータを生成することができる(Zhong et. al, 2022)。
本研究は, オンライン政策勾配アルゴリズムのデータ効率を向上させるために, 適応型, オフポリシーサンプリング手法を提案する。
我々の手法であるPROPS(Proximal Robust On-Policy Smpling)は、現在のポリシーに対してアンダーサンプリングされたサンプリングアクションの確率を高める行動ポリシーを用いてデータを収集することでサンプリングエラーを低減する。
本稿では,PROPS を連続動作 MuJoCo ベンチマークタスクと離散動作タスクの両方で実証的に評価し,(1) PROPS がトレーニング中のサンプリング誤差を低減し,(2) オンラインポリシー勾配アルゴリズムのデータ効率を向上することを示した。
関連論文リスト
- Provably Efficient Off-Policy Adversarial Imitation Learning with Convergence Guarantees [12.427664781003463]
本研究では, 外部AILアルゴリズムの収束特性とサンプル複雑性について検討する。
重要サンプリング補正がなくても、$o(sqrtK)$直近のポリシーで生成されたサンプルを再利用しても収束保証を損なわないことを示す。
論文 参考訳(メタデータ) (2024-05-26T19:17:32Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Sigmoidally Preconditioned Off-policy Learning:a new exploration method
for reinforcement learning [14.991913317341417]
政治以外のアクター・クリティカルアーキテクチャに着目し,P3O(Preconditioned Proximal Policy Optimization)と呼ばれる新しい手法を提案する。
P3Oは、保守政策反復(CPI)目標に事前条件を適用することにより、重要度サンプリングの高分散を制御できる。
その結果,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T09:38:04Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Robust On-Policy Data Collection for Data-Efficient Policy Evaluation [7.745028845389033]
政策評価では、関心のある環境に対する評価政策の期待したリターンを見積もる。
我々は、潜在的に大きなオフラインRLデータセットと組み合わせるために、少量の追加データを収集できる設定を検討します。
この設定では、単に評価ポリシ -- オンラインデータ収集 -- を実行することが、サブ最適であることを示します。
論文 参考訳(メタデータ) (2021-11-29T14:30:26Z) - Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under
Batch Update Policy [8.807587076209566]
オフ・ポリティクス評価(OPE)の目的は、行動政策を通じて得られた履歴データを用いて、新しい政策を評価することである。
文脈的帯域幅は過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同一に分布する。
本稿では,従属サンプルに対するマーチンゲール差分列(MDS)から推定器を構築することにより,この問題に対処する。
論文 参考訳(メタデータ) (2020-10-23T15:22:57Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。