Fugu-MT 論文翻訳(概要): Geometry and convergence of natural policy gradient methods

論文の概要: Geometry and convergence of natural policy gradient methods

arxiv url: http://arxiv.org/abs/2211.02105v1
Date: Thu, 3 Nov 2022 19:16:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-07 17:37:03.765010
Title: Geometry and convergence of natural policy gradient methods
Title（参考訳）: 自然政策勾配法の幾何学と収束
Authors: Johannes M\"uller and Guido Mont\'ufar
Abstract要約: 規則的な政策パラメトリゼーションを伴う無限水平割引マルコフ決定過程におけるいくつかの自然政策勾配法(NPG)の収束について検討する。様々なNPGや報酬関数に対して、状態作用空間の軌跡がヘッセン幾何学に関する勾配流の解であることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the convergence of several natural policy gradient (NPG) methods in infinite-horizon discounted Markov decision processes with regular policy parametrizations. For a variety of NPGs and reward functions we show that the trajectories in state-action space are solutions of gradient flows with respect to Hessian geometries, based on which we obtain global convergence guarantees and convergence rates. In particular, we show linear convergence for unregularized and regularized NPG flows with the metrics proposed by Kakade and Morimura and co-authors by observing that these arise from the Hessian geometries of conditional entropy and entropy respectively. Further, we obtain sublinear convergence rates for Hessian geometries arising from other convex functions like log-barriers. Finally, we interpret the discrete-time NPG methods with regularized rewards as inexact Newton methods if the NPG is defined with respect to the Hessian geometry of the regularizer. This yields local quadratic convergence rates of these methods for step size equal to the penalization strength.
Abstract（参考訳）: 規則的な政策パラメトリゼーションを伴う無限水平割引マルコフ決定過程におけるいくつかの自然政策勾配法(NPG)の収束について検討する。様々なNPGや報酬関数に対して、状態作用空間の軌跡がヘッセン測度に対する勾配流の解であることを示し、大域収束保証と収束率を得る。特に, 条件エントロピーとエントロピーのヘッセン幾何学から生じることをkakade と morimura と共著者らによって提唱された指標を用いて, 非正規化および正規化npg流の線形収束を示す。さらに、ログバリアのような他の凸関数から生じるヘッセン幾何学の線型収束率を得る。最後に、正規化報酬を伴う離散時間NPG法を、正規化器のヘッセン幾何に関してNPGが定義される場合、不正確なニュートン法として解釈する。これにより、ステップサイズに対するこれらの方法の局所二次収束速度は、ペナリゼーション強度と等しい。

関連論文リスト

A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文参考訳（メタデータ） (2024-05-24T21:09:19Z)
Convergence of policy gradient methods for finite-horizon exploratory linear-quadratic control problems [3.8661825615213012]
有限水平連続時間探索線形四元数制御(LQC)問題に対する政策勾配法(PG法)の大域的線形収束について検討する。本稿では,離散時間ポリシーを持つ新しいPG法を提案する。このアルゴリズムは連続時間解析を活用し,動作周波数の異なる線形収束性を実現する。
論文参考訳（メタデータ） (2022-11-01T17:31:41Z)
Linear Convergence of Natural Policy Gradient Methods with Log-Linear Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文参考訳（メタデータ） (2022-10-04T06:17:52Z)
On the Convergence Rates of Policy Gradient Methods [9.74841674275568]
有限状態部分空間における幾何的に割引された支配問題を考える。試料中の直交勾配のパラリゼーションにより、勾配の一般的な複雑さを解析できることが示される。
論文参考訳（メタデータ） (2022-01-19T07:03:37Z)
Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文参考訳（メタデータ） (2021-12-29T18:46:52Z)
Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization [20.651913793555163]
古典的エントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。提案したアルゴリズムに対して,大域的最適収束結果と$widetildemathcalO(frac1epsilon2)$のサンプル複雑性を確立する。
論文参考訳（メタデータ） (2021-10-19T17:21:09Z)
On the Convergence of Stochastic Extragradient for Bilinear Games with Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文参考訳（メタデータ） (2021-06-30T17:51:36Z)
Improving Metric Dimensionality Reduction with Distributed Topology [68.8204255655161]
DIPOLEは、局所的、計量的項と大域的、位相的項の両方で損失関数を最小化し、初期埋め込みを補正する次元推論後処理ステップである。 DIPOLEは、UMAP、t-SNE、Isomapといった一般的な手法よりも多くの一般的なデータセットで優れています。
論文参考訳（メタデータ） (2021-06-14T17:19:44Z)
Linear Convergence of Entropy-Regularized Natural Policy Gradient with Linear Function Approximation [30.02577720946978]
線形関数近似を用いたエントロピー規則化NPGの有限時間収束解析を確立した。エントロピー規則化NPGは関数近似誤差までのエンフィナール収束を示すことを示す。
論文参考訳（メタデータ） (2021-06-08T04:30:39Z)
Gauge Equivariant Mesh CNNs: Anisotropic convolutions on geometric graphs [81.12344211998635]
メッシュ上の畳み込みを定義する一般的なアプローチは、それらをグラフとして解釈し、グラフ畳み込みネットワーク(GCN)を適用することである。本稿では、GCNを一般化して異方性ゲージ同変カーネルを適用するGauge Equivariant Mesh CNNを提案する。本実験は,従来のGCNおよび他の手法と比較して,提案手法の表現性を大幅に向上することを示した。
論文参考訳（メタデータ） (2020-03-11T17:21:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。