論文の概要: On the Linear convergence of Natural Policy Gradient Algorithm
- arxiv url: http://arxiv.org/abs/2105.01424v1
- Date: Tue, 4 May 2021 11:26:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 17:04:39.746953
- Title: On the Linear convergence of Natural Policy Gradient Algorithm
- Title(参考訳): 自然政策勾配アルゴリズムの線形収束について
- Authors: Sajad Khodadadian, Prakirt Raj Jhunjhunwala, Sushil Mahavir Varma,
Siva Theja Maguluri
- Abstract要約: 強化学習に対する近年の関心は、最適化に触発された手法の研究の動機となった。
このうち自然政策グラディエント(Natural Policy Gradient)は、MDPのミラー降下型である。
改良された有限時間収束境界を示し,このアルゴリズムが幾何収束率を持つことを示す。
- 参考スコア(独自算出の注目度): 5.027714423258537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Markov Decision Processes are classically solved using Value Iteration and
Policy Iteration algorithms. Recent interest in Reinforcement Learning has
motivated the study of methods inspired by optimization, such as gradient
ascent. Among these, a popular algorithm is the Natural Policy Gradient, which
is a mirror descent variant for MDPs. This algorithm forms the basis of several
popular Reinforcement Learning algorithms such as Natural actor-critic, TRPO,
PPO, etc, and so is being studied with growing interest. It has been shown that
Natural Policy Gradient with constant step size converges with a sublinear rate
of O(1/k) to the global optimal. In this paper, we present improved finite time
convergence bounds, and show that this algorithm has geometric (also known as
linear) asymptotic convergence rate. We further improve this convergence result
by introducing a variant of Natural Policy Gradient with adaptive step sizes.
Finally, we compare different variants of policy gradient methods
experimentally.
- Abstract(参考訳): マルコフ決定プロセスは、価値反復とポリシー反復アルゴリズムを用いて古典的に解決される。
強化学習への近年の関心は、勾配上昇などの最適化にインスパイアされた手法の研究を動機付けている。
これらのうち、人気のあるアルゴリズムはNatural Policy Gradientであり、これはMDPのミラー降下変種である。
このアルゴリズムは,Natural actor-critic, TRPO, PPOなど,いくつかの一般的な強化学習アルゴリズムの基礎を成している。
一定のステップサイズを持つ自然政策勾配は、大域的最適にO(1/k)のサブ線形速度に収束することが示されている。
本稿では,改良された有限時間収束境界を示し,このアルゴリズムが幾何学的(線形)漸近収束率を持つことを示す。
我々は,適応的なステップサイズを持つ自然政策勾配の変種を導入することにより,この収束結果をさらに改善する。
最後に,政策勾配手法の異なるバリエーションを実験的に比較する。
関連論文リスト
- Elementary Analysis of Policy Gradient Methods [3.468656086349638]
本稿では、割引MDPの設定に焦点をあて、前述の政策最適化手法の体系的研究を行う。
1)任意の一定のステップサイズに対する投影された方針勾配の大域的線形収束、2)任意の一定のステップサイズに対するソフトマックス方針勾配の大域的線形収束、3)任意の一定のステップサイズに対するソフトマックス自然政策勾配の大域的線形収束、4)既存の結果よりも広い一定のステップサイズに対するエントロピー正規化ソフトマックス方針勾配の大域的線形収束、5)エントロピー正規化自然政策勾配の厳密な局所的収束率、6)新しい局所的2次収束率。
論文 参考訳(メタデータ) (2024-04-04T11:16:16Z) - Linear Convergence of Natural Policy Gradient Methods with Log-Linear
Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。
両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文 参考訳(メタデータ) (2022-10-04T06:17:52Z) - Bag of Tricks for Natural Policy Gradient Reinforcement Learning [87.54231228860495]
我々は,自然政策勾配強化学習のパフォーマンスに影響を及ぼす戦略を実装し,比較した。
提案されたパフォーマンス最適化戦略の収集は、MuJuCoコントロールベンチマークにおいて、結果を86%から181%改善することができる。
論文 参考訳(メタデータ) (2022-01-22T17:44:19Z) - Approximate Newton policy gradient algorithms [18.032678371017198]
本稿では, エントロピー正則化を用いたポリシ勾配アルゴリズムに対して, 近似ニュートン法を提案する。
これらのアルゴリズムがニュートン型二次収束を楽しみ、対応する勾配流が最適解に大域的に収束することを証明する。
論文 参考訳(メタデータ) (2021-10-05T23:07:12Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - On the Convergence and Sample Efficiency of Variance-Reduced Policy
Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。
しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。
第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文 参考訳(メタデータ) (2021-02-17T07:06:19Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Smoothed functional-based gradient algorithms for off-policy reinforcement learning: A non-asymptotic viewpoint [8.087699764574788]
政治外の強化学習コンテキストにおける制御問題の解法として,2つのポリシー勾配アルゴリズムを提案する。
どちらのアルゴリズムも、スムーズな関数的勾配推定スキームを取り入れている。
論文 参考訳(メタデータ) (2021-01-06T17:06:42Z) - Fast Global Convergence of Natural Policy Gradient Methods with Entropy
Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。
我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。
この結果から, エントロピー正則化の役割を浮き彫りにした。
論文 参考訳(メタデータ) (2020-07-13T17:58:41Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。