論文の概要: Convergence Proof for Actor-Critic Methods Applied to PPO and RUDDER
- arxiv url: http://arxiv.org/abs/2012.01399v1
- Date: Wed, 2 Dec 2020 18:47:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 04:08:42.922491
- Title: Convergence Proof for Actor-Critic Methods Applied to PPO and RUDDER
- Title(参考訳): PPOおよびRUDDERに適用したアクター臨界法の収束証明
- Authors: Markus Holzleitner, Lukas Gruber, Jos\'e Arjona-Medina, Johannes
Brandstetter, Sepp Hochreiter
- Abstract要約: 我々は、よく知られたPPOと最近導入されたRUDDERの収束性を示す。
本研究は, エピソード標本を用いたアクター批判的手法に有効であり, 学習中により欲求的になる方針を持つ。
- 参考スコア(独自算出の注目度): 6.9478331974594045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We prove under commonly used assumptions the convergence of actor-critic
reinforcement learning algorithms, which simultaneously learn a policy
function, the actor, and a value function, the critic. Both functions can be
deep neural networks of arbitrary complexity. Our framework allows showing
convergence of the well known Proximal Policy Optimization (PPO) and of the
recently introduced RUDDER. For the convergence proof we employ recently
introduced techniques from the two time-scale stochastic approximation theory.
Our results are valid for actor-critic methods that use episodic samples and
that have a policy that becomes more greedy during learning. Previous
convergence proofs assume linear function approximation, cannot treat episodic
examples, or do not consider that policies become greedy. The latter is
relevant since optimal policies are typically deterministic.
- Abstract(参考訳): 本稿では,政策関数,アクター,価値関数を同時に学習するアクター批判型強化学習アルゴリズムの収束を,一般的に用いられる仮定の下で証明する。
どちらの関数も任意の複雑性を持つディープニューラルネットワークである。
我々のフレームワークは、よく知られたPPO(Proximal Policy Optimization)と最近導入されたRUDDERの収束を示すことができる。
収束証明には、2つの時間スケール確率近似理論から導入された手法を用いる。
以上の結果は,エピソディックサンプルを使用し,学習中により欲張りになる方針を持つアクタ-批判的手法に有効である。
以前の収束証明は線形関数近似を仮定し、エピソディックな例を扱えないか、あるいはポリシーが欲張りになることを考慮しない。
最適政策は通常決定論的であるため、後者は適切である。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Policy Gradient and Actor-Critic Learning in Continuous Time and Space:
Theory and Algorithms [1.776746672434207]
連続時間と空間における強化学習のための政策勾配(PG)について検討する。
本稿では,RLに対するアクタ批判アルゴリズムの2つのタイプを提案し,同時に値関数とポリシーを学習し,更新する。
論文 参考訳(メタデータ) (2021-11-22T14:27:04Z) - Provable Benefits of Actor-Critic Methods for Offline Reinforcement
Learning [85.50033812217254]
アクター批判法はオフラインの強化学習に広く用いられているが、理論的にはそれほどよく理解されていない。
ペシミズムの原理を自然に取り入れた新しいオフラインアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-19T17:27:29Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Improved Regret Bound and Experience Replay in Regularized Policy
Iteration [22.621710838468097]
無限ホライゾンマルコフ決定過程(mdps)における学習アルゴリズムを関数近似を用いて検討する。
まず、ほぼ同一の仮定の下で、Politexアルゴリズムの後悔解析を$O(T3/4)$から$O(sqrtT)$にシャープできることを示す。
その結果、計算効率の良いアルゴリズムに対して、最初の高い確率の$o(sqrtt)$ regretバウンドが得られる。
論文 参考訳(メタデータ) (2021-02-25T00:55:07Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Single-Timescale Actor-Critic Provably Finds Globally Optimal Policy [122.01837436087516]
我々は、強化学習アルゴリズムの最も一般的なファミリーの一つであるアクター批判のグローバル収束とグローバル最適性について研究する。
線形関数近似を用いたシングルタイムスケールアクター批評家の収束率と大域的最適性を確立した。
論文 参考訳(メタデータ) (2020-08-02T14:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。