論文の概要: Controlling an Inverted Pendulum with Policy Gradient Methods-A Tutorial
- arxiv url: http://arxiv.org/abs/2105.07998v1
- Date: Mon, 17 May 2021 16:30:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 18:24:14.841715
- Title: Controlling an Inverted Pendulum with Policy Gradient Methods-A Tutorial
- Title(参考訳): 政策勾配法による倒立振子の制御-チュートリアル
- Authors: Swagat Kumar
- Abstract要約: この論文は、逆振り子問題を解決するために2つの重要なポリシーメソッドを実装する詳細を提供します。
問題は、アクターネットワークを使用してポリシー関数を学習し、批判ネットワークは、Q関数を推定するために学習することによってアクターネットワークを評価するアクター批判モデルを使用して解決される。
- 参考スコア(独自算出の注目度): 4.995196359072169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper provides the details of implementing two important policy gradient
methods to solve the inverted pendulum problem. These are namely the Deep
Deterministic Policy Gradient (DDPG) and the Proximal Policy Optimization (PPO)
algorithm. The problem is solved by using an actor-critic model where an
actor-network is used to learn the policy function and a critic network is to
evaluate the actor-network by learning to estimate the Q function. Apart from
briefly explaining the mathematics behind these two algorithms, the details of
python implementation are provided which helps in demystifying the underlying
complexity of the algorithm. In the process, the readers will be introduced to
OpenAI/Gym, Tensorflow 2.x and Keras utilities used for implementing the above
concepts.
- Abstract(参考訳): 本稿では,倒立振子問題を解くための2つの重要な政策勾配手法の実装について述べる。
すなわち、Deep Deterministic Policy Gradient (DDPG) と Proximal Policy Optimization (PPO) アルゴリズムである。
政策関数を学習するためにアクタ-ネットワークを使用するアクタ-批判モデルを用い、q関数を推定するために学習してアクタ-ネットワークを評価する。
これら2つのアルゴリズムの背後にある数学を簡潔に説明する以外に、pythonの実装の詳細が提供され、アルゴリズムの基盤となる複雑さを解明するのに役立つ。
その過程で、読者は、上記の概念を実装するために使われるOpenAI/Gym、Tensorflow 2.x、Kerasユーティリティに紹介される。
関連論文リスト
- PG-Rainbow: Using Distributional Reinforcement Learning in Policy Gradient Methods [0.0]
本稿では,分散強化学習フレームワークとポリシ勾配アルゴリズムを組み合わせた新しいアルゴリズムPG-Rainbowを紹介する。
政策ネットワークに報酬分配情報を統合することで、政策エージェントが強化された能力を取得するという経験的結果を示す。
論文 参考訳(メタデータ) (2024-07-18T04:18:52Z) - A Cubic-regularized Policy Newton Algorithm for Reinforcement Learning [9.628032156001073]
立方正則化を取り入れた2つのポリシーニュートンアルゴリズムを提案する。
どちらのアルゴリズムも確率比法を用いて値関数の勾配とヘシアンを推定する。
特に、我々のアルゴリズムのサンプル複雑さが$epsilon$-SOSPを見つけるのに$O(epsilon-3.5)$であり、これは最先端のサンプル複雑性の$O(epsilon-4.5)$よりも改善されている。
論文 参考訳(メタデータ) (2023-04-21T13:43:06Z) - Lexicographic Multi-Objective Reinforcement Learning [65.90380946224869]
このような問題を解決するために,アクション値アルゴリズムとポリシー勾配アルゴリズムの両方のファミリを提案する。
エージェントの動作に安全制約を課すのに我々のアルゴリズムをどのように使用できるかを示し、この文脈でのそれらの性能を他の制約付き強化学習アルゴリズムと比較する。
論文 参考訳(メタデータ) (2022-12-28T10:22:36Z) - Recursive Least Squares Advantage Actor-Critic Algorithms [20.792917267835247]
2つの新しいRSSベースのアドバンテージアクター批評家アルゴリズム(A2C)を提案する。
RLSSA2C と RLSNA2C は RLS 法を用いて批評家ネットワークとアクターネットワークの隠れ層を訓練する。
実験結果から,両アルゴリズムは,ほとんどのゲームやタスクにおいて,バニラA2Cよりもサンプリング効率がよいことがわかった。
論文 参考訳(メタデータ) (2022-01-15T20:00:26Z) - Policy Gradient and Actor-Critic Learning in Continuous Time and Space:
Theory and Algorithms [1.776746672434207]
連続時間と空間における強化学習のための政策勾配(PG)について検討する。
本稿では,RLに対するアクタ批判アルゴリズムの2つのタイプを提案し,同時に値関数とポリシーを学習し,更新する。
論文 参考訳(メタデータ) (2021-11-22T14:27:04Z) - Provable Benefits of Actor-Critic Methods for Offline Reinforcement
Learning [85.50033812217254]
アクター批判法はオフラインの強化学習に広く用いられているが、理論的にはそれほどよく理解されていない。
ペシミズムの原理を自然に取り入れた新しいオフラインアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-19T17:27:29Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。