Fugu-MT 論文翻訳(概要): Quasi-Newton Iteration in Deterministic Policy Gradient

論文の概要: Quasi-Newton Iteration in Deterministic Policy Gradient

arxiv url: http://arxiv.org/abs/2203.13854v1
Date: Fri, 25 Mar 2022 18:38:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-29 17:15:31.673457
Title: Quasi-Newton Iteration in Deterministic Policy Gradient
Title（参考訳）: 決定論的政策勾配における準ニュートン反復
Authors: Arash Bahari Kordabad, Hossein Nejatbakhsh Esfahani, Wenqi Cai, Sebastien Gros
Abstract要約: 近似ヘシアンが最適なポリシーで正確なヘシアンに収束することを示す。簡単な線形の場合の定式化を解析的に検証し,提案手法の収束度を自然政策勾配と比較する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents a model-free approximation for the Hessian of the performance of deterministic policies to use in the context of Reinforcement Learning based on Quasi-Newton steps in the policy parameters. We show that the approximate Hessian converges to the exact Hessian at the optimal policy, and allows for a superlinear convergence in the learning, provided that the policy parametrization is rich. The natural policy gradient method can be interpreted as a particular case of the proposed method. We analytically verify the formulation in a simple linear case and compare the convergence of the proposed method with the natural policy gradient in a nonlinear example.
Abstract（参考訳）: 本稿では,政策パラメータの準ニュートンステップに基づく強化学習の文脈で使用する決定論的政策の性能を,ヘシアンに対してモデルフリーで近似する。近似ヘッシアンは最適方針において正確なヘッシアンに収束し、政策パラメトリゼーションが豊富であることを条件として、学習における超線形収束を可能にする。自然政策勾配法は,提案手法の特定の場合として解釈することができる。単純な線形の場合の定式化を解析的に検証し、非線形例において提案手法の収束と自然政策勾配を比較する。

関連論文リスト

Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文参考訳（メタデータ） (2025-07-06T14:40:05Z)
Strongly-polynomial time and validation analysis of policy gradient methods [3.722665817361884]
本稿では,有限状態および行動マルコフ決定過程(MDP)と強化学習(RL)のための,優位ギャップ関数と呼ばれる新しい終了基準を提案する。この利点ギャップ関数をステップサイズルールの設計に組み込むことで、最適ポリシーの定常状態分布に依存しない新しい線形収束率を導出する。政策勾配法に対してそのような強い収束特性が確立されたのはこれが初めてである。
論文参考訳（メタデータ） (2024-09-28T18:56:48Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Last-Iterate Convergent Policy Gradient Primal-Dual Methods for Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文参考訳（メタデータ） (2023-06-20T17:27:31Z)
High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文参考訳（メタデータ） (2023-05-30T12:58:39Z)
Linear Convergence of Natural Policy Gradient Methods with Log-Linear Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文参考訳（メタデータ） (2022-10-04T06:17:52Z)
Policy Gradient Method For Robust Reinforcement Learning [23.62008807533706]
本稿では,モデルミスマッチ下での頑健な強化学習のための大域的最適性保証と複雑性解析を用いた最初のポリシー勾配法を開発した。提案手法は, 直接的政策パラメータ化の下で, 大域的最適勾配に収束することを示す。次に、我々の方法論を一般のモデルフリー設定に拡張し、ロバストなパラメトリックポリシークラスと値関数を設計する。
論文参考訳（メタデータ） (2022-05-15T17:35:17Z)
On the Convergence Rates of Policy Gradient Methods [9.74841674275568]
有限状態部分空間における幾何的に割引された支配問題を考える。試料中の直交勾配のパラリゼーションにより、勾配の一般的な複雑さを解析できることが示される。
論文参考訳（メタデータ） (2022-01-19T07:03:37Z)
Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文参考訳（メタデータ） (2021-03-22T03:16:33Z)
On Linear Convergence of Policy Gradient Methods for Finite MDPs [8.00114449574708]
最も簡単な設定の1つにおいて、ポリシー勾配法の有限時間解析を再検討する。政策勾配法の多くの変種が大きなステップサイズで成功し、線形収束率を得ることを示す。
論文参考訳（メタデータ） (2020-07-21T22:35:37Z)
Complexity Guarantees for Polyak Steps with Momentum [76.97851351276165]
そこでは,この知識を最適な値である$f_*$で置き換える。まず、Polyak ステップによる単純な勾配勾配の古典的な場合よりも若干改善された収束境界を示し、その後、収束保証とともに、Polyak ステップと運動量を持つ加速勾配法を導出する。
論文参考訳（メタデータ） (2020-02-03T17:50:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。