論文の概要: On-Policy Policy Gradient Reinforcement Learning Without On-Policy
Sampling
- arxiv url: http://arxiv.org/abs/2311.08290v1
- Date: Tue, 14 Nov 2023 16:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 13:25:46.685838
- Title: On-Policy Policy Gradient Reinforcement Learning Without On-Policy
Sampling
- Title(参考訳): On-Policy Policy Gradient Reinforcement Learning without On-Policy Smpling
- Authors: Nicholas E. Corrado, Josiah P. Hanna
- Abstract要約: そこで本稿では,オンラインポリシー勾配アルゴリズムのデータ効率向上のための適応型オフポリシーサンプリング手法を提案する。
我々の手法であるPROPS(Proximal Robust On-Policy Smpling)は,データ収集によるサンプリング誤差を低減する。
我々の研究は、RLコミュニティの、オン・ポリティィ対オフ・ポリティィ二分法におけるニュアンスに対する理解を改善する:オン・ポリティィ・ラーニングは、オン・ポリティィ・サンプリングではなく、オン・ポリティィ・データを必要とする。
- 参考スコア(独自算出の注目度): 4.164735640341406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-policy reinforcement learning (RL) algorithms perform policy updates using
i.i.d. trajectories collected by the current policy. However, after observing
only a finite number of trajectories, on-policy sampling may produce data that
fails to match the expected on-policy data distribution. This sampling error
leads to noisy updates and data inefficient on-policy learning. Recent work in
the policy evaluation setting has shown that non-i.i.d., off-policy sampling
can produce data with lower sampling error than on-policy sampling can produce.
Motivated by this observation, we introduce an adaptive, off-policy sampling
method to improve the data efficiency of on-policy policy gradient algorithms.
Our method, Proximal Robust On-Policy Sampling (PROPS), reduces sampling error
by collecting data with a behavior policy that increases the probability of
sampling actions that are under-sampled with respect to the current policy.
Rather than discarding data from old policies -- as is commonly done in
on-policy algorithms -- PROPS uses data collection to adjust the distribution
of previously collected data to be approximately on-policy. We empirically
evaluate PROPS on both continuous-action MuJoCo benchmark tasks as well as
discrete-action tasks and demonstrate that (1) PROPS decreases sampling error
throughout training and (2) improves the data efficiency of on-policy policy
gradient algorithms. Our work improves the RL community's understanding of a
nuance in the on-policy vs off-policy dichotomy: on-policy learning requires
on-policy data, not on-policy sampling.
- Abstract(参考訳): オンライン強化学習(RL)アルゴリズムは、現在のポリシーによって収集された軌道を用いてポリシー更新を行う。
しかし、有限個の軌道のみを観測した後、オンポリシーサンプリングは期待されたオンポリシーデータ分布と一致しないデータを生成する可能性がある。
このサンプリングエラーは、ノイズの多い更新と、非効率なオンポリシー学習につながる。
政策評価設定における最近の研究は、例えば、オフ・ポリシーサンプリングは、オン・ポリシーサンプリングよりも低いサンプリング誤差でデータを生成することができることを示した。
そこで本研究では,オンポリシー勾配アルゴリズムのデータ効率向上のための適応型オフポリシーサンプリング手法を提案する。
我々の手法であるPROPS(Proximal Robust On-Policy Smpling)は、現在のポリシーに対してアンダーサンプリングされたサンプリングアクションの確率を高める行動ポリシーを用いてデータを収集することでサンプリングエラーを低減する。
PROPSは、従来のポリシーからデータを捨てるのではなく、データ収集を使用して、以前に収集したデータの分散をほぼオンポジーに調整する。
我々は,連続動作ムジョコベンチマークタスクと離散動作タスクの両方のプロップを実証的に評価し,(1)プロップがトレーニング期間中にサンプリング誤差を減少させ,(2)オンポリシポリシー勾配アルゴリズムのデータ効率を向上させることを実証した。
我々の研究は、オンポリシー対オフポリシー二分法におけるニュアンスに対するrlコミュニティの理解を改善する:オンポリシー学習はオンポリシーデータを必要とし、オンポリシーサンプリングは必要ではない。
関連論文リスト
- Provably Efficient Off-Policy Adversarial Imitation Learning with Convergence Guarantees [12.427664781003463]
本研究では, 外部AILアルゴリズムの収束特性とサンプル複雑性について検討する。
重要サンプリング補正がなくても、$o(sqrtK)$直近のポリシーで生成されたサンプルを再利用しても収束保証を損なわないことを示す。
論文 参考訳(メタデータ) (2024-05-26T19:17:32Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Sigmoidally Preconditioned Off-policy Learning:a new exploration method
for reinforcement learning [14.991913317341417]
政治以外のアクター・クリティカルアーキテクチャに着目し,P3O(Preconditioned Proximal Policy Optimization)と呼ばれる新しい手法を提案する。
P3Oは、保守政策反復(CPI)目標に事前条件を適用することにより、重要度サンプリングの高分散を制御できる。
その結果,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T09:38:04Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Robust On-Policy Data Collection for Data-Efficient Policy Evaluation [7.745028845389033]
政策評価では、関心のある環境に対する評価政策の期待したリターンを見積もる。
我々は、潜在的に大きなオフラインRLデータセットと組み合わせるために、少量の追加データを収集できる設定を検討します。
この設定では、単に評価ポリシ -- オンラインデータ収集 -- を実行することが、サブ最適であることを示します。
論文 参考訳(メタデータ) (2021-11-29T14:30:26Z) - Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under
Batch Update Policy [8.807587076209566]
オフ・ポリティクス評価(OPE)の目的は、行動政策を通じて得られた履歴データを用いて、新しい政策を評価することである。
文脈的帯域幅は過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同一に分布する。
本稿では,従属サンプルに対するマーチンゲール差分列(MDS)から推定器を構築することにより,この問題に対処する。
論文 参考訳(メタデータ) (2020-10-23T15:22:57Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。