論文の概要: Linear Convergence of Natural Policy Gradient Methods with Log-Linear
Policies
- arxiv url: http://arxiv.org/abs/2210.01400v1
- Date: Tue, 4 Oct 2022 06:17:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 13:49:57.061212
- Title: Linear Convergence of Natural Policy Gradient Methods with Log-Linear
Policies
- Title(参考訳): 対数線形政策を用いた自然政策勾配法の線形収束
- Authors: Rui Yuan, Simon S. Du, Robert M. Gower, Alessandro Lazaric, Lin Xiao
- Abstract要約: 我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。
両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
- 参考スコア(独自算出の注目度): 115.86431674214282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider infinite-horizon discounted Markov decision processes and study
the convergence rates of the natural policy gradient (NPG) and the Q-NPG
methods with the log-linear policy class. Using the compatible function
approximation framework, both methods with log-linear policies can be written
as approximate versions of the policy mirror descent (PMD) method. We show that
both methods attain linear convergence rates and $\mathcal{O}(1/\epsilon^2)$
sample complexities using a simple, non-adaptive geometrically increasing step
size, without resorting to entropy or other strongly convex regularization.
Lastly, as a byproduct, we obtain sublinear convergence rates for both methods
with arbitrary constant step size.
- Abstract(参考訳): 我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。
互換性のある関数近似フレームワークを用いて、ログ線形ポリシーを持つ両方のメソッドは、ポリシーミラー降下法(PMD)の近似バージョンとして記述することができる。
両手法は、エントロピーや他の強い凸正則化を使わずに、単純で非適応的な幾何的に増加するステップサイズを用いて、線形収束率と$\mathcal{O}(1/\epsilon^2)$サンプル複素量が得られることを示す。
最後に、副生成物として、任意の一定のステップサイズを持つ両方の方法のサブ線形収束率を得る。
関連論文リスト
- Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Geometry and convergence of natural policy gradient methods [0.0]
規則的な政策パラメトリゼーションを伴う無限水平割引マルコフ決定過程におけるいくつかの自然政策勾配法(NPG)の収束について検討する。
様々なNPGや報酬関数に対して、状態作用空間の軌跡がヘッセン幾何学に関する勾配流の解であることを示す。
論文 参考訳(メタデータ) (2022-11-03T19:16:15Z) - Quasi-Newton Iteration in Deterministic Policy Gradient [0.0]
近似ヘシアンが最適なポリシーで正確なヘシアンに収束することを示す。
簡単な線形の場合の定式化を解析的に検証し,提案手法の収束度を自然政策勾配と比較する。
論文 参考訳(メタデータ) (2022-03-25T18:38:57Z) - On the Convergence Rates of Policy Gradient Methods [9.74841674275568]
有限状態部分空間における幾何的に割引された支配問題を考える。
試料中の直交勾配のパラリゼーションにより、勾配の一般的な複雑さを解析できることが示される。
論文 参考訳(メタデータ) (2022-01-19T07:03:37Z) - Improving Metric Dimensionality Reduction with Distributed Topology [68.8204255655161]
DIPOLEは、局所的、計量的項と大域的、位相的項の両方で損失関数を最小化し、初期埋め込みを補正する次元推論後処理ステップである。
DIPOLEは、UMAP、t-SNE、Isomapといった一般的な手法よりも多くの一般的なデータセットで優れています。
論文 参考訳(メタデータ) (2021-06-14T17:19:44Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - On Linear Convergence of Policy Gradient Methods for Finite MDPs [8.00114449574708]
最も簡単な設定の1つにおいて、ポリシー勾配法の有限時間解析を再検討する。
政策勾配法の多くの変種が大きなステップサイズで成功し、線形収束率を得ることを示す。
論文 参考訳(メタデータ) (2020-07-21T22:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。