論文の概要: Policy Gradient using Weak Derivatives for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2004.04843v1
- Date: Thu, 9 Apr 2020 23:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 02:45:24.162460
- Title: Policy Gradient using Weak Derivatives for Reinforcement Learning
- Title(参考訳): 弱微分を用いた強化学習のための政策勾配
- Authors: Sujay Bhatt, Alec Koppel, Vikram Krishnamurthy
- Abstract要約: 本稿では、継続的な状態対応強化学習問題におけるポリシー探索について考察する。
弱導関数を用いた勾配推定は, 一般的なスコア関数を用いた勾配推定よりも低い値を示した。
- 参考スコア(独自算出の注目度): 24.50189361694407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers policy search in continuous state-action reinforcement
learning problems. Typically, one computes search directions using a classic
expression for the policy gradient called the Policy Gradient Theorem, which
decomposes the gradient of the value function into two factors: the score
function and the Q-function. This paper presents four results:(i) an
alternative policy gradient theorem using weak (measure-valued) derivatives
instead of score-function is established; (ii) the stochastic gradient
estimates thus derived are shown to be unbiased and to yield algorithms that
converge almost surely to stationary points of the non-convex value function of
the reinforcement learning problem; (iii) the sample complexity of the
algorithm is derived and is shown to be $O(1/\sqrt(k))$; (iv) finally, the
expected variance of the gradient estimates obtained using weak derivatives is
shown to be lower than those obtained using the popular score-function
approach. Experiments on OpenAI gym pendulum environment show superior
performance of the proposed algorithm.
- Abstract(参考訳): 本稿では,連続状態動作強化学習問題におけるポリシー探索について考察する。
典型的には、政策勾配定理と呼ばれる政策勾配の古典的な表現を用いて探索方向を計算し、値関数の勾配をスコア関数とq関数の2つの因子に分解する。
本稿は以下の4つの結果を示す。
(i)スコア関数の代わりに弱(測定値)導関数を用いる代替方針勾配定理が確立される。
(ii)このような確率的勾配推定は、偏りがなく、強化学習問題の非凸値関数の定常点にほぼ確実に収束するアルゴリズムであることが示される。
(iii)アルゴリズムのサンプル複雑性は導出され、$O(1/\sqrt(k))$;であることが示されている。
(iv)最終的に,弱微分を用いて得られる勾配推定の期待値のばらつきが,人気のスコア関数法で得られた値よりも低いことが示される。
OpenAI体育館の振り子環境実験は,提案アルゴリズムの優れた性能を示す。
関連論文リスト
- Compatible Gradient Approximations for Actor-Critic Algorithms [0.0]
本稿では,アクション値勾配のゼロ次近似を用いることで,そのような精度の必要性を回避できるアクタ批判アルゴリズムを提案する。
実験結果から,本アルゴリズムは現在の最先端手法に適合するだけでなく,しばしば性能を上回ることを示した。
論文 参考訳(メタデータ) (2024-09-02T22:00:50Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - On the Second-Order Convergence of Biased Policy Gradient Algorithms [11.955062839855334]
勾配ポリシーは2階の定常点でサドルを逃れる。
バイアス勾配法の新しい2次解析法を提案する。
また,チェーンの初期状態分布の収束点を確立する。
論文 参考訳(メタデータ) (2023-11-05T02:33:30Z) - High-Probability Bounds for Stochastic Optimization and Variational
Inequalities: the Case of Unbounded Variance [59.211456992422136]
制約の少ない仮定の下で高確率収束結果のアルゴリズムを提案する。
これらの結果は、標準機能クラスに適合しない問題を最適化するために検討された手法の使用を正当化する。
論文 参考訳(メタデータ) (2023-02-02T10:37:23Z) - Random-reshuffled SARAH does not need a full gradient computations [61.85897464405715]
StochAstic Recursive grAdientritHm (SARAH)アルゴリズムは、Gradient Descent (SGD)アルゴリズムのばらつき低減版である。
本稿では,完全勾配の必要性を除去する。
集約された勾配は、SARAHアルゴリズムの完全な勾配の見積もりとなる。
論文 参考訳(メタデータ) (2021-11-26T06:00:44Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Smoothed functional-based gradient algorithms for off-policy reinforcement learning: A non-asymptotic viewpoint [8.087699764574788]
政治外の強化学習コンテキストにおける制御問題の解法として,2つのポリシー勾配アルゴリズムを提案する。
どちらのアルゴリズムも、スムーズな関数的勾配推定スキームを取り入れている。
論文 参考訳(メタデータ) (2021-01-06T17:06:42Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Proximal Gradient Temporal Difference Learning: Stable Reinforcement
Learning with Polynomial Sample Complexity [40.73281056650241]
本稿では,真の勾配時間差学習アルゴリズムを設計・解析する原理的な方法として,近位勾配時間差学習を導入する。
本研究では, 従来の目的関数からではなく, 主目的関数から始めることによって, 勾配性TD強化学習法を公式に導出する方法を示す。
論文 参考訳(メタデータ) (2020-06-06T21:04:21Z) - Distributed Stochastic Nonconvex Optimization and Learning based on
Successive Convex Approximation [26.11677569331688]
本稿では,ネットワーク内のエージェントの総和の分散アルゴリズム最小化のための新しいフレームワークを提案する。
提案手法は分散ニューラルネットワークに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-04-30T15:36:46Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。