Fugu-MT 論文翻訳(概要): A Large Deviations Perspective on Policy Gradient Algorithms

論文の概要: A Large Deviations Perspective on Policy Gradient Algorithms

arxiv url: http://arxiv.org/abs/2311.07411v1
Date: Mon, 13 Nov 2023 15:44:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 14:01:04.618357
Title: A Large Deviations Perspective on Policy Gradient Algorithms
Title（参考訳）: 政策勾配アルゴリズムにおける大きな偏差の視点
Authors: Wouter Jongeneel, Mengmeng Li, Daniel Kuhn
Abstract要約: 政策勾配法により生成された反復率に対する最初の大きな偏差率関数を導出する。また、他の政策パラメトリゼーションの幅広いスペクトルに対して指数収束率を導出するための一般的なレシピも開発する。
参考スコア（独自算出の注目度）: 6.828358604431707
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We derive the first large deviation rate function for the stochastic iterates generated by policy gradient methods with a softmax parametrization and an entropy regularized objective. Leveraging the contraction principle from large deviations theory, we also develop a general recipe for deriving exponential convergence rates for a wide spectrum of other policy parametrizations. This approach unifies several results from the literature and simplifies existing proof techniques.
Abstract（参考訳）: 本研究では,ソフトマックスパラメトリゼーションとエントロピー正規化目的を用いたポリシー勾配法により生じる確率的イテレートに対する最初の大きな偏差率関数を導出する。縮約原理を大きな偏差理論から利用し、他の幅広い政策パラメトリゼーションのスペクトルに対する指数収束率を導出するための一般的なレシピも開発する。このアプローチは文献からのいくつかの結果を統一し、既存の証明技法を単純化する。

関連論文リスト

Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文参考訳（メタデータ） (2025-07-06T14:40:05Z)
Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。 D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文参考訳（メタデータ） (2024-08-19T14:11:04Z)
Mollification Effects of Policy Gradient Methods [16.617678267301702]
政策勾配法が非滑らかな最適化環境をどう動員するかを理解するための厳密な枠組みを開発する。政策勾配法と逆熱方程式の解法との等価性を実証する。我々は、この制限と調和解析における不確実性原理の関連性を、RLにおける政策による探索の効果を理解するために作成する。
論文参考訳（メタデータ） (2024-05-28T05:05:33Z)
Last-Iterate Convergent Policy Gradient Primal-Dual Methods for Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文参考訳（メタデータ） (2023-06-20T17:27:31Z)
High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文参考訳（メタデータ） (2023-05-30T12:58:39Z)
Linear Convergence of Natural Policy Gradient Methods with Log-Linear Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文参考訳（メタデータ） (2022-10-04T06:17:52Z)
Quasi-Newton Iteration in Deterministic Policy Gradient [0.0]
近似ヘシアンが最適なポリシーで正確なヘシアンに収束することを示す。簡単な線形の場合の定式化を解析的に検証し,提案手法の収束度を自然政策勾配と比較する。
論文参考訳（メタデータ） (2022-03-25T18:38:57Z)
On the Convergence Rates of Policy Gradient Methods [9.74841674275568]
有限状態部分空間における幾何的に割引された支配問題を考える。試料中の直交勾配のパラリゼーションにより、勾配の一般的な複雑さを解析できることが示される。
論文参考訳（メタデータ） (2022-01-19T07:03:37Z)
Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization [20.651913793555163]
古典的エントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。提案したアルゴリズムに対して,大域的最適収束結果と$widetildemathcalO(frac1epsilon2)$のサンプル複雑性を確立する。
論文参考訳（メタデータ） (2021-10-19T17:21:09Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
A Study of Policy Gradient on a Class of Exactly Solvable Models [35.90565839381652]
我々は、厳密な解決可能なPOMDPの特別なクラスに対して、ポリシーパラメータの進化を連続状態マルコフ連鎖として検討する。我々のアプローチはランダムウォーク理論、特にアフィンワイル群に大きく依存している。我々は,政策勾配の確率収束を,値関数の局所的最大値に対して解析する。
論文参考訳（メタデータ） (2020-11-03T17:27:53Z)
Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文参考訳（メタデータ） (2020-06-28T15:44:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。