Fugu-MT 論文翻訳(概要): On-Policy Policy Gradient Reinforcement Learning Without On-Policy Sampling

論文の概要: On-Policy Policy Gradient Reinforcement Learning Without On-Policy Sampling

arxiv url: http://arxiv.org/abs/2311.08290v1
Date: Tue, 14 Nov 2023 16:37:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-15 13:25:46.685838
Title: On-Policy Policy Gradient Reinforcement Learning Without On-Policy Sampling
Title（参考訳）: On-Policy Policy Gradient Reinforcement Learning without On-Policy Smpling
Authors: Nicholas E. Corrado, Josiah P. Hanna
Abstract要約: そこで本稿では,オンラインポリシー勾配アルゴリズムのデータ効率向上のための適応型オフポリシーサンプリング手法を提案する。我々の手法であるPROPS(Proximal Robust On-Policy Smpling)は,データ収集によるサンプリング誤差を低減する。我々の研究は、RLコミュニティの、オン・ポリティィ対オフ・ポリティィ二分法におけるニュアンスに対する理解を改善する:オン・ポリティィ・ラーニングは、オン・ポリティィ・サンプリングではなく、オン・ポリティィ・データを必要とする。
参考スコア（独自算出の注目度）: 4.164735640341406
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: On-policy reinforcement learning (RL) algorithms perform policy updates using i.i.d. trajectories collected by the current policy. However, after observing only a finite number of trajectories, on-policy sampling may produce data that fails to match the expected on-policy data distribution. This sampling error leads to noisy updates and data inefficient on-policy learning. Recent work in the policy evaluation setting has shown that non-i.i.d., off-policy sampling can produce data with lower sampling error than on-policy sampling can produce. Motivated by this observation, we introduce an adaptive, off-policy sampling method to improve the data efficiency of on-policy policy gradient algorithms. Our method, Proximal Robust On-Policy Sampling (PROPS), reduces sampling error by collecting data with a behavior policy that increases the probability of sampling actions that are under-sampled with respect to the current policy. Rather than discarding data from old policies -- as is commonly done in on-policy algorithms -- PROPS uses data collection to adjust the distribution of previously collected data to be approximately on-policy. We empirically evaluate PROPS on both continuous-action MuJoCo benchmark tasks as well as discrete-action tasks and demonstrate that (1) PROPS decreases sampling error throughout training and (2) improves the data efficiency of on-policy policy gradient algorithms. Our work improves the RL community's understanding of a nuance in the on-policy vs off-policy dichotomy: on-policy learning requires on-policy data, not on-policy sampling.
Abstract（参考訳）: オンライン強化学習(RL)アルゴリズムは、現在のポリシーによって収集された軌道を用いてポリシー更新を行う。しかし、有限個の軌道のみを観測した後、オンポリシーサンプリングは期待されたオンポリシーデータ分布と一致しないデータを生成する可能性がある。このサンプリングエラーは、ノイズの多い更新と、非効率なオンポリシー学習につながる。政策評価設定における最近の研究は、例えば、オフ・ポリシーサンプリングは、オン・ポリシーサンプリングよりも低いサンプリング誤差でデータを生成することができることを示した。そこで本研究では,オンポリシー勾配アルゴリズムのデータ効率向上のための適応型オフポリシーサンプリング手法を提案する。我々の手法であるPROPS(Proximal Robust On-Policy Smpling)は、現在のポリシーに対してアンダーサンプリングされたサンプリングアクションの確率を高める行動ポリシーを用いてデータを収集することでサンプリングエラーを低減する。 PROPSは、従来のポリシーからデータを捨てるのではなく、データ収集を使用して、以前に収集したデータの分散をほぼオンポジーに調整する。我々は,連続動作ムジョコベンチマークタスクと離散動作タスクの両方のプロップを実証的に評価し,(1)プロップがトレーニング期間中にサンプリング誤差を減少させ,(2)オンポリシポリシー勾配アルゴリズムのデータ効率を向上させることを実証した。我々の研究は、オンポリシー対オフポリシー二分法におけるニュアンスに対するrlコミュニティの理解を改善する:オンポリシー学習はオンポリシーデータを必要とし、オンポリシーサンプリングは必要ではない。

関連論文リスト

Relative Entropy Pathwise Policy Optimization [56.86405621176669]
そこで本研究では,Q値モデルをオンラインデータから純粋にトレーニング可能な,価値段階駆動型オンデマンドアルゴリズムの構築方法について述べる。本稿では,パスワイズポリシー勾配のサンプル効率と,標準的なオンライン学習の単純さと最小限のメモリフットプリントを組み合わせた,効率的なオンライン学習アルゴリズムであるRelative Entropy Pathwise Policy Optimization (REPPO)を提案する。
論文参考訳（メタデータ） (2025-07-15T06:24:07Z)
Fine-tuning Diffusion Policies with Backpropagation Through Diffusion Timesteps [15.333088768668347]
NCDPOは拡散政策を雑音条件決定政策として再構成する新しい枠組みである。実験の結果,NCDPOはスクラッチからトレーニングを行う際に,PPOに匹敵するサンプル効率が得られることがわかった。
論文参考訳（メタデータ） (2025-05-15T16:33:44Z)
Divergence-Augmented Policy Optimization [12.980566919112034]
本稿では,非政治データの再利用時にポリシー最適化を安定化させる手法を提案する。その考え方は、データを生成する行動ポリシーと現在のポリシーをBregmanに分けて、非政治データによる小規模で安全なポリシー更新を保証する、というものだ。 Atariゲームにおける実証実験により,非政治データの再利用が必要なデータ共有シナリオにおいて,本手法は他の最先端の深層強化学習アルゴリズムよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2025-01-25T02:35:46Z)
Provably Efficient Off-Policy Adversarial Imitation Learning with Convergence Guarantees [12.427664781003463]
本研究では, 外部AILアルゴリズムの収束特性とサンプル複雑性について検討する。重要サンプリング補正がなくても、$o(sqrtK)$直近のポリシーで生成されたサンプルを再利用しても収束保証を損なわないことを示す。
論文参考訳（メタデータ） (2024-05-26T19:17:32Z)
Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文参考訳（メタデータ） (2024-05-09T09:08:09Z)
Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文参考訳（メタデータ） (2023-11-25T00:30:58Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Sigmoidally Preconditioned Off-policy Learning:a new exploration method for reinforcement learning [14.991913317341417]
政治以外のアクター・クリティカルアーキテクチャに着目し,P3O(Preconditioned Proximal Policy Optimization)と呼ばれる新しい手法を提案する。 P3Oは、保守政策反復(CPI)目標に事前条件を適用することにより、重要度サンプリングの高分散を制御できる。その結果,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることがわかった。
論文参考訳（メタデータ） (2022-05-20T09:38:04Z)
Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文参考訳（メタデータ） (2022-03-16T21:17:03Z)
Robust On-Policy Data Collection for Data-Efficient Policy Evaluation [7.745028845389033]
政策評価では、関心のある環境に対する評価政策の期待したリターンを見積もる。我々は、潜在的に大きなオフラインRLデータセットと組み合わせるために、少量の追加データを収集できる設定を検討します。この設定では、単に評価ポリシ -- オンラインデータ収集 -- を実行することが、サブ最適であることを示します。
論文参考訳（メタデータ） (2021-11-29T14:30:26Z)
Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under Batch Update Policy [8.807587076209566]
オフ・ポリティクス評価(OPE)の目的は、行動政策を通じて得られた履歴データを用いて、新しい政策を評価することである。文脈的帯域幅は過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同一に分布する。本稿では,従属サンプルに対するマーチンゲール差分列(MDS)から推定器を構築することにより,この問題に対処する。
論文参考訳（メタデータ） (2020-10-23T15:22:57Z)
Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文参考訳（メタデータ） (2020-09-14T16:22:46Z)
DDPG++: Striving for Simplicity in Continuous-control Off-Policy Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文参考訳（メタデータ） (2020-06-26T20:21:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。