論文の概要: Convergence of policy gradient for entropy regularized MDPs with neural
network approximation in the mean-field regime
- arxiv url: http://arxiv.org/abs/2201.07296v1
- Date: Tue, 18 Jan 2022 20:17:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 14:02:30.685796
- Title: Convergence of policy gradient for entropy regularized MDPs with neural
network approximation in the mean-field regime
- Title(参考訳): 平均場状態におけるニューラルネットワーク近似を用いたエントロピー正規化MDPのポリシー勾配の収束
- Authors: Bekzhan Kerimkulov and James-Michael Leahy and David \v{S}i\v{s}ka and
Lukasz Szpruch
- Abstract要約: 無限水平連続状態および行動空間,エントロピー規則化マルコフ決定過程(MDPs)に対する政策勾配のグローバル収束性について検討する。
結果は非線形フォッカー-プランク-コルモゴロフ方程式の慎重な解析に依存する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the global convergence of policy gradient for infinite-horizon,
continuous state and action space, entropy-regularized Markov decision
processes (MDPs). We consider a softmax policy with (one-hidden layer) neural
network approximation in a mean-field regime. Additional entropic
regularization in the associated mean-field probability measure is added, and
the corresponding gradient flow is studied in the 2-Wasserstein metric. We show
that the objective function is increasing along the gradient flow. Further, we
prove that if the regularization in terms of the mean-field measure is
sufficient, the gradient flow converges exponentially fast to the unique
stationary solution, which is the unique maximizer of the regularized MDP
objective. Lastly, we study the sensitivity of the value function along the
gradient flow with respect to regularization parameters and the initial
condition. Our results rely on the careful analysis of non-linear
Fokker--Planck--Kolmogorov equation and extend the pioneering work of Mei et
al. 2020 and Agarwal et al. 2020, which quantify the global convergence rate of
policy gradient for entropy-regularized MDPs in the tabular setting.
- Abstract(参考訳): 無限水平連続状態および行動空間,エントロピー規則化マルコフ決定過程(MDPs)に対する政策勾配のグローバル収束について検討する。
平均場環境における(隠れ層)ニューラルネットワーク近似を用いたソフトマックスポリシーを考える。
関連する平均場確率測定における追加のエントロピー正則化を加え、対応する勾配流を2-ワッサーシュタイン計量で研究する。
勾配流に沿って目的関数が増大していることを示す。
さらに、平均場測度の項による正規化が十分であれば、勾配流は指数関数的に一意な定常解に収束し、これは正規化mdpの目的の唯一の最大化である。
最後に, 定式化パラメータと初期条件に関して, 勾配流に沿った値関数の感度について検討した。
本研究は,非線型フォッカー-プランク-コルモゴロフ方程式の注意深い解析と,エントロピー正規化mdpにおける政策勾配のグローバル収束率を定量化するmei et al. 2020 と agarwal et al. 2020 の先駆的研究を拡張したものである。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimiax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - A Fisher-Rao gradient flow for entropy-regularised Markov decision
processes in Polish spaces [10.777806006475297]
無限水平エントロピー規則化マルコフ決定過程に対するフィッシャー・ラオ政策勾配流のポーランド状態と行動空間による大域収束について検討する。
勾配流の大域的健全性を確立し,その指数収束性を示す。
論文 参考訳(メタデータ) (2023-10-04T16:41:36Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - On the Convergence Rates of Policy Gradient Methods [9.74841674275568]
有限状態部分空間における幾何的に割引された支配問題を考える。
試料中の直交勾配のパラリゼーションにより、勾配の一般的な複雑さを解析できることが示される。
論文 参考訳(メタデータ) (2022-01-19T07:03:37Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization [20.651913793555163]
古典的エントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。
提案したアルゴリズムに対して,大域的最適収束結果と$widetildemathcalO(frac1epsilon2)$のサンプル複雑性を確立する。
論文 参考訳(メタデータ) (2021-10-19T17:21:09Z) - A Near-Optimal Gradient Flow for Learning Neural Energy-Based Models [93.24030378630175]
学習エネルギーベースモデル(EBM)の勾配流を最適化する新しい数値スキームを提案する。
フォッカー・プランク方程式から大域相対エントロピーの2階ワッサーシュタイン勾配流を導出する。
既存のスキームと比較して、ワッサーシュタイン勾配流は実データ密度を近似するより滑らかで近似的な数値スキームである。
論文 参考訳(メタデータ) (2019-10-31T02:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。