論文の概要: Phasic Policy Gradient
- arxiv url: http://arxiv.org/abs/2009.04416v1
- Date: Wed, 9 Sep 2020 16:52:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 08:57:32.142266
- Title: Phasic Policy Gradient
- Title(参考訳): ファシック政策のグラディエント
- Authors: Karl Cobbe, Jacob Hilton, Oleg Klimov, John Schulman
- Abstract要約: 従来の方法では、共有ネットワークか、ポリシーと値関数を表現するために別々のネットワークを選択する必要がある。
本稿では,政策と価値関数のトレーニングを異なる段階に分けて,従来のオンラインアクター・クリティカルな手法を改良した強化学習フレームワークであるファシック・ポリシー・グラディエントを紹介する。
PPGは、最適化を2つのフェーズに分割することで、両方の世界のベストを達成できる。
- 参考スコア(独自算出の注目度): 24.966649684989367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Phasic Policy Gradient (PPG), a reinforcement learning framework
which modifies traditional on-policy actor-critic methods by separating policy
and value function training into distinct phases. In prior methods, one must
choose between using a shared network or separate networks to represent the
policy and value function. Using separate networks avoids interference between
objectives, while using a shared network allows useful features to be shared.
PPG is able to achieve the best of both worlds by splitting optimization into
two phases, one that advances training and one that distills features. PPG also
enables the value function to be more aggressively optimized with a higher
level of sample reuse. Compared to PPO, we find that PPG significantly improves
sample efficiency on the challenging Procgen Benchmark.
- Abstract(参考訳): 本稿では,政策と価値関数のトレーニングを異なる段階に分けて,従来のオンラインアクター-批判的手法を変更する強化学習フレームワークであるPhasic Policy Gradient(PPG)を紹介する。
従来の方法では、共有ネットワークか、ポリシーと値関数を表現するために別々のネットワークを選択する必要がある。
別々のネットワークを使用すると目的間の干渉が回避されるが、共有ネットワークを使用すると有用な機能を共有することができる。
ppgは、最適化を2つのフェーズに分割することで、両方の世界のベストを達成することができる。
PPGはまた、より高いレベルのサンプル再利用で値関数をより積極的に最適化することを可能にする。
PPOと比較すると,PPGはProcgen Benchmarkの課題に対して,サンプル効率を大幅に向上させることがわかった。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Deep Reinforcement Learning for Traveling Purchaser Problems [63.37136587778153]
旅行購入問題(TPP)は幅広いアプリケーションにおいて重要な最適化問題である。
本稿では,ルート構築と購入計画を個別に扱う,深層強化学習(DRL)に基づく新しいアプローチを提案する。
メタラーニング戦略を導入することで、大規模なTPPインスタンス上で安定してポリシーネットワークをトレーニングすることができる。
論文 参考訳(メタデータ) (2024-04-03T05:32:10Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Improving Deep Policy Gradients with Value Function Search [21.18135854494779]
本稿では、値近似の改善とDeep PGプリミティブへの影響の分析に焦点をあてる。
本稿では,より優れた近似を求めるために,摂動値ネットワークの集団を用いた値関数探索を提案する。
我々のフレームワークは、追加の環境相互作用、勾配計算、アンサンブルを必要としない。
論文 参考訳(メタデータ) (2023-02-20T18:23:47Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Optimal Estimation of Off-Policy Policy Gradient via Double Fitted
Iteration [39.250754806600135]
政策(PG)推定は、ターゲットポリシーのサンプル化が許されない場合、課題となる。
従来の非政治PG推定法は、しばしば大きなバイアスや指数関数的に大きなばらつきに悩まされる。
本稿では,FPG(Double Fitted PG Estimation)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-31T20:23:52Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games [67.47961797770249]
マルチエージェントPPO(MAPPO)は、集中型値関数を採用するマルチエージェントPPOバリアントである。
MAPPOは,3つの一般的なマルチエージェントテストベッドにおいて,最先端技術に匹敵する性能を実現していることを示す。
論文 参考訳(メタデータ) (2021-03-02T18:59:56Z) - Proximal Policy Gradient: PPO with Policy Gradient [13.571988925615486]
本稿では,VPG (vanilla Policy gradient) と PPO (proximal Policy Optimization) の両方に近い新しいアルゴリズム PPG (Proximal Policy Gradient) を提案する。
PPGの性能はPPOに匹敵し、エントロピーはPPGよりも遅く崩壊する。
論文 参考訳(メタデータ) (2020-10-20T00:14:57Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。