論文の概要: Approximate Newton policy gradient algorithms
- arxiv url: http://arxiv.org/abs/2110.02398v5
- Date: Mon, 20 Mar 2023 03:15:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 05:49:41.780967
- Title: Approximate Newton policy gradient algorithms
- Title(参考訳): 近似ニュートンポリシー勾配アルゴリズム
- Authors: Haoya Li, Samarth Gupta, Hsiangfu Yu, Lexing Ying, Inderjit Dhillon
- Abstract要約: 本稿では, エントロピー正則化を用いたポリシ勾配アルゴリズムに対して, 近似ニュートン法を提案する。
これらのアルゴリズムがニュートン型二次収束を楽しみ、対応する勾配流が最適解に大域的に収束することを証明する。
- 参考スコア(独自算出の注目度): 18.032678371017198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy gradient algorithms have been widely applied to Markov decision
processes and reinforcement learning problems in recent years. Regularization
with various entropy functions is often used to encourage exploration and
improve stability. This paper proposes an approximate Newton method for the
policy gradient algorithm with entropy regularization. In the case of Shannon
entropy, the resulting algorithm reproduces the natural policy gradient
algorithm. For other entropy functions, this method results in brand-new policy
gradient algorithms. We prove that all these algorithms enjoy Newton-type
quadratic convergence and that the corresponding gradient flow converges
globally to the optimal solution. We use synthetic and industrial-scale
examples to demonstrate that the proposed approximate Newton method typically
converges in single-digit iterations, often orders of magnitude faster than
other state-of-the-art algorithms.
- Abstract(参考訳): 近年,マルコフ決定過程や強化学習問題に政策勾配アルゴリズムが広く応用されている。
様々なエントロピー関数を持つ正規化は、探索と安定性の向上を促進するためにしばしば用いられる。
本稿では,エントロピー正規化を伴うポリシー勾配アルゴリズムに対する近似ニュートン法を提案する。
シャノンエントロピーの場合、結果として得られるアルゴリズムは自然政策勾配アルゴリズムを再現する。
他のエントロピー関数に対しては、この手法は新しいポリシー勾配アルゴリズムをもたらす。
これらすべてのアルゴリズムがニュートン型二次収束を享受し、対応する勾配流がグローバルに最適解に収束することを証明する。
我々は合成および工業規模の例を用いて、提案された近似ニュートン法が典型的には1桁の反復で収束することを示した。
関連論文リスト
- Invex Programs: First Order Algorithms and Their Convergence [66.40124280146863]
Invexプログラムは、固定点ごとに世界最小値が得られる特別な非制約問題である。
そこで我々は,超凸問題における一般収束率を解くために,新しい一階法アルゴリズムを提案する。
提案アルゴリズムは,制約付き凸プログラムを解く最初のアルゴリズムである。
論文 参考訳(メタデータ) (2023-07-10T10:11:01Z) - A Cubic-regularized Policy Newton Algorithm for Reinforcement Learning [9.628032156001073]
立方正則化を取り入れた2つのポリシーニュートンアルゴリズムを提案する。
どちらのアルゴリズムも確率比法を用いて値関数の勾配とヘシアンを推定する。
特に、我々のアルゴリズムのサンプル複雑さが$epsilon$-SOSPを見つけるのに$O(epsilon-3.5)$であり、これは最先端のサンプル複雑性の$O(epsilon-4.5)$よりも改善されている。
論文 参考訳(メタデータ) (2023-04-21T13:43:06Z) - Robust empirical risk minimization via Newton's method [9.797319790710711]
実験的リスク最小化のためのニュートン法の新しい変種について検討した。
目的関数の勾配と Hessian は、ロバストな推定器に置き換えられる。
また,共役勾配法に基づくニュートン方向のロバストな解を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T18:54:54Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Continuation Newton methods with deflation techniques for global
optimization problems [3.705839280172101]
最適化問題のグローバルな最小点はエンジニアリングである。
本稿では,この非線形大規模問題に対する新しいメメティックアルゴリズムについて考察する。
我々の数値実験によると、新しいアルゴリズムは制約のない未制約問題に対してうまく機能する。
論文 参考訳(メタデータ) (2021-07-29T09:53:49Z) - The Bayesian Learning Rule [14.141964578853262]
我々は、多くの機械学習アルゴリズムが、emphBayesian Learning Ruleと呼ばれる単一のアルゴリズムの特定の例であることを示した。
この規則はベイズ原理から派生したもので、最適化、ディープラーニング、グラフィカルモデルといった分野から幅広いアルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-07-09T17:28:55Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - On the Linear convergence of Natural Policy Gradient Algorithm [5.027714423258537]
強化学習に対する近年の関心は、最適化に触発された手法の研究の動機となった。
このうち自然政策グラディエント(Natural Policy Gradient)は、MDPのミラー降下型である。
改良された有限時間収束境界を示し,このアルゴリズムが幾何収束率を持つことを示す。
論文 参考訳(メタデータ) (2021-05-04T11:26:12Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Accelerated Message Passing for Entropy-Regularized MAP Inference [89.15658822319928]
離散値のランダムフィールドにおけるMAP推論の最大化は、機械学習の基本的な問題である。
この問題の難しさから、特殊メッセージパッシングアルゴリズムの導出には線形プログラミング(LP)緩和が一般的である。
古典的加速勾配の根底にある手法を活用することにより,これらのアルゴリズムを高速化するランダム化手法を提案する。
論文 参考訳(メタデータ) (2020-07-01T18:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。