論文の概要: Bridging the Gap between Newton-Raphson Method and Regularized Policy
Iteration
- arxiv url: http://arxiv.org/abs/2310.07211v1
- Date: Wed, 11 Oct 2023 05:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 00:15:30.984869
- Title: Bridging the Gap between Newton-Raphson Method and Regularized Policy
Iteration
- Title(参考訳): Newton-Raphson法と正規化ポリシイテレーションのギャップを埋める
- Authors: Zeyang Li, Chuxiong Hu, Yunan Wang, Guojian Zhan, Jie Li, Shengbo Eben
Li
- Abstract要約: 規則化されたポリシー反復は、強い凸関数を持つベルマン方程式を滑らかにする条件において、標準ニュートン・ラフソン法と厳密に等価であることを示す。
正規化政策反復が大域的線形収束を持ち、そのレートが$gamma$ (discount factor)であることを証明する。
また、正規化ポリシー反復の修正版、すなわち有限ステップのポリシー評価はニュートン法と等価であり、ニュートンの反復式はトランカットされた反復で解かれることを示す。
- 参考スコア(独自算出の注目度): 13.166738075816493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Regularization is one of the most important techniques in reinforcement
learning algorithms. The well-known soft actor-critic algorithm is a special
case of regularized policy iteration where the regularizer is chosen as Shannon
entropy. Despite some empirical success of regularized policy iteration, its
theoretical underpinnings remain unclear. This paper proves that regularized
policy iteration is strictly equivalent to the standard Newton-Raphson method
in the condition of smoothing out Bellman equation with strongly convex
functions. This equivalence lays the foundation of a unified analysis for both
global and local convergence behaviors of regularized policy iteration. We
prove that regularized policy iteration has global linear convergence with the
rate being $\gamma$ (discount factor). Furthermore, this algorithm converges
quadratically once it enters a local region around the optimal value. We also
show that a modified version of regularized policy iteration, i.e., with
finite-step policy evaluation, is equivalent to inexact Newton method where the
Newton iteration formula is solved with truncated iterations. We prove that the
associated algorithm achieves an asymptotic linear convergence rate of
$\gamma^M$ in which $M$ denotes the number of steps carried out in policy
evaluation. Our results take a solid step towards a better understanding of the
convergence properties of regularized policy iteration algorithms.
- Abstract(参考訳): 正規化は強化学習アルゴリズムにおいて最も重要な技術の一つである。
有名なソフトアクタ-クリティックアルゴリズムは、正規化ポリシー反復の特別な場合であり、正規化子はシャノンエントロピーとして選択される。
規則化された政策イテレーションの実証的な成功にもかかわらず、その理論的根拠はいまだに不明である。
本稿では, 正則化ポリシの反復は, 強い凸関数を持つベルマン方程式を滑らかにする条件下で, 標準ニュートン・ラフソン法と厳密に等価であることを示す。
この同値性は、正規化政策反復のグローバルおよび局所収束挙動の統一解析の基礎となる。
正規化ポリシーイテレーションがグローバル線形収束を持つことを証明し、そのレートが$\gamma$(計数係数)であることを証明する。
さらに、このアルゴリズムは最適値の周りの局所領域に入ると二次収束する。
また、正規化ポリシー反復の修正版、すなわち有限ステップのポリシー評価はニュートン法と等価であり、ニュートンの反復式はトランカットされた反復で解かれることを示す。
関連するアルゴリズムが漸近線形収束率 $\gamma^m$ を達成できることを証明し、そこでは$m$ が政策評価におけるステップ数を表す。
本研究は,規則化ポリシー反復アルゴリズムの収束特性をよりよく理解するための固い一歩を踏み出した。
関連論文リスト
- The Reinforce Policy Gradient Algorithm Revisited [7.894349646617293]
文献からReinforce Policy gradientアルゴリズムを再検討する。
本稿では,基本アルゴリズムの大幅な拡張を提案する。
この新しいアルゴリズムの収束の証明を提供する。
論文 参考訳(メタデータ) (2023-10-08T04:05:13Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - On the Linear Convergence of Policy Gradient under Hadamard
Parameterization [4.182089296199263]
本研究では,アダマールパラメータ化に基づく決定論的政策勾配の収束性について検討する。
すべてのイテレーションに対して$O(frac1k)$レートでエラーが減少することを示す。
論文 参考訳(メタデータ) (2023-05-31T05:51:15Z) - A Cubic-regularized Policy Newton Algorithm for Reinforcement Learning [9.628032156001073]
立方正則化を取り入れた2つのポリシーニュートンアルゴリズムを提案する。
どちらのアルゴリズムも確率比法を用いて値関数の勾配とヘシアンを推定する。
特に、我々のアルゴリズムのサンプル複雑さが$epsilon$-SOSPを見つけるのに$O(epsilon-3.5)$であり、これは最先端のサンプル複雑性の$O(epsilon-4.5)$よりも改善されている。
論文 参考訳(メタデータ) (2023-04-21T13:43:06Z) - A New Policy Iteration Algorithm For Reinforcement Learning in Zero-Sum
Markov Games [10.805520579293747]
ゲームに対するナイーブなポリシー反復の単純な変種は指数関数的に高速に収束することを示す。
また、線形マルコフゲームの関数近似設定において、ルックアヘッドポリシーを効率的に実装できることを示す。
論文 参考訳(メタデータ) (2023-03-17T01:20:22Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Globally Convergent Policy Search over Dynamic Filters for Output
Estimation [64.90951294952094]
我々は,大域的に最適な$textitdynamic$ filterに収束する最初の直接ポリシー探索アルゴリズム凸を導入する。
我々は、情報化が前述の優越性を克服していることを示す。
論文 参考訳(メタデータ) (2022-02-23T18:06:20Z) - Homotopic Policy Mirror Descent: Policy Convergence, Implicit
Regularization, and Improved Sample Complexity [40.2022466644885]
有限状態と作用空間を持つ割引・無限水平型MDPを解くホモトピーポリシーミラー降下法(HPMD)法。
政策勾配法に関する文献では, 新たな3つの特性が報告されている。
論文 参考訳(メタデータ) (2022-01-24T04:54:58Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。