論文の概要: Quasi-Newton policy gradient algorithms
- arxiv url: http://arxiv.org/abs/2110.02398v1
- Date: Tue, 5 Oct 2021 23:07:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:13:56.091505
- Title: Quasi-Newton policy gradient algorithms
- Title(参考訳): 準ニュートンポリシー勾配アルゴリズム
- Authors: Haoya Li, Samarth Gupta, Hsiangfu Yu, Lexing Ying, Inderjit Dhillon
- Abstract要約: エントロピー正規化を用いたポリシー勾配アルゴリズムの準ニュートン法を提案する。
提案した準ニュートン法は1桁の繰り返しで収束し、しばしば他の最先端アルゴリズムよりも桁違いに高速であることを示す。
- 参考スコア(独自算出の注目度): 12.41704017445194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy gradient algorithms have been widely applied to reinforcement learning
(RL) problems in recent years. Regularization with various entropy functions is
often used to encourage exploration and improve stability. In this paper, we
propose a quasi-Newton method for the policy gradient algorithm with entropy
regularization. In the case of Shannon entropy, the resulting algorithm
reproduces the natural policy gradient (NPG) algorithm. For other entropy
functions, this method results in brand new policy gradient algorithms. We
provide a simple proof that all these algorithms enjoy the Newton-type
quadratic convergence near the optimal policy. Using synthetic and
industrial-scale examples, we demonstrate that the proposed quasi-Newton method
typically converges in single-digit iterations, often orders of magnitude
faster than other state-of-the-art algorithms.
- Abstract(参考訳): 近年、政策勾配アルゴリズムは強化学習(RL)問題に広く応用されている。
様々なエントロピー関数を持つ正規化は、探索と安定性の向上を促進するためにしばしば用いられる。
本稿では,エントロピー正規化を伴うポリシー勾配アルゴリズムに対する準ニュートン法を提案する。
シャノンエントロピーの場合、結果として得られるアルゴリズムは自然政策勾配 (npg) アルゴリズムを再現する。
他のエントロピー関数に対しては、この手法は新しいポリシー勾配アルゴリズムをもたらす。
これら全てのアルゴリズムが最適ポリシーに近いニュートン型二次収束を楽しむという簡単な証明を提供する。
合成および工業規模の例を用いて、提案した準ニュートン法は一般に1桁の繰り返しに収束し、しばしば他の最先端アルゴリズムよりも桁違いに高速であることを示した。
関連論文リスト
- Invex Programs: First Order Algorithms and Their Convergence [66.40124280146863]
Invexプログラムは、固定点ごとに世界最小値が得られる特別な非制約問題である。
そこで我々は,超凸問題における一般収束率を解くために,新しい一階法アルゴリズムを提案する。
提案アルゴリズムは,制約付き凸プログラムを解く最初のアルゴリズムである。
論文 参考訳(メタデータ) (2023-07-10T10:11:01Z) - A Cubic-regularized Policy Newton Algorithm for Reinforcement Learning [9.628032156001073]
立方正則化を取り入れた2つのポリシーニュートンアルゴリズムを提案する。
どちらのアルゴリズムも確率比法を用いて値関数の勾配とヘシアンを推定する。
特に、我々のアルゴリズムのサンプル複雑さが$epsilon$-SOSPを見つけるのに$O(epsilon-3.5)$であり、これは最先端のサンプル複雑性の$O(epsilon-4.5)$よりも改善されている。
論文 参考訳(メタデータ) (2023-04-21T13:43:06Z) - Robust empirical risk minimization via Newton's method [9.797319790710711]
実験的リスク最小化のためのニュートン法の新しい変種について検討した。
目的関数の勾配と Hessian は、ロバストな推定器に置き換えられる。
また,共役勾配法に基づくニュートン方向のロバストな解を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T18:54:54Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Continuation Newton methods with deflation techniques for global
optimization problems [3.705839280172101]
最適化問題のグローバルな最小点はエンジニアリングである。
本稿では,この非線形大規模問題に対する新しいメメティックアルゴリズムについて考察する。
我々の数値実験によると、新しいアルゴリズムは制約のない未制約問題に対してうまく機能する。
論文 参考訳(メタデータ) (2021-07-29T09:53:49Z) - The Bayesian Learning Rule [14.141964578853262]
我々は、多くの機械学習アルゴリズムが、emphBayesian Learning Ruleと呼ばれる単一のアルゴリズムの特定の例であることを示した。
この規則はベイズ原理から派生したもので、最適化、ディープラーニング、グラフィカルモデルといった分野から幅広いアルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-07-09T17:28:55Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - On the Linear convergence of Natural Policy Gradient Algorithm [5.027714423258537]
強化学習に対する近年の関心は、最適化に触発された手法の研究の動機となった。
このうち自然政策グラディエント(Natural Policy Gradient)は、MDPのミラー降下型である。
改良された有限時間収束境界を示し,このアルゴリズムが幾何収束率を持つことを示す。
論文 参考訳(メタデータ) (2021-05-04T11:26:12Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Accelerated Message Passing for Entropy-Regularized MAP Inference [89.15658822319928]
離散値のランダムフィールドにおけるMAP推論の最大化は、機械学習の基本的な問題である。
この問題の難しさから、特殊メッセージパッシングアルゴリズムの導出には線形プログラミング(LP)緩和が一般的である。
古典的加速勾配の根底にある手法を活用することにより,これらのアルゴリズムを高速化するランダム化手法を提案する。
論文 参考訳(メタデータ) (2020-07-01T18:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。