論文の概要: Provably Efficient Convergence of Primal-Dual Actor-Critic with
Nonlinear Function Approximation
- arxiv url: http://arxiv.org/abs/2202.13863v1
- Date: Mon, 28 Feb 2022 15:16:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 20:33:10.901704
- Title: Provably Efficient Convergence of Primal-Dual Actor-Critic with
Nonlinear Function Approximation
- Title(参考訳): 非線形関数近似を用いた高次アクター臨界の確率的収束
- Authors: Jing Dong, Li Shen, Yinggan Xu, Baoxiang Wang
- Abstract要約: The first efficient convergence result with primal-dual actor-critic with a convergence of $mathcalOleft ascent(Nright)Nright)$ under Polyian sample。
Open GymAI連続制御タスクの結果。
- 参考スコア(独自算出の注目度): 15.319335698574932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the convergence of the actor-critic algorithm with nonlinear
function approximation under a nonconvex-nonconcave primal-dual formulation.
Stochastic gradient descent ascent is applied with an adaptive proximal term
for robust learning rates. We show the first efficient convergence result with
primal-dual actor-critic with a convergence rate of
$\mathcal{O}\left(\sqrt{\frac{\ln \left(N d G^2 \right)}{N}}\right)$ under
Markovian sampling, where $G$ is the element-wise maximum of the gradient, $N$
is the number of iterations, and $d$ is the dimension of the gradient. Our
result is presented with only the Polyak-\L{}ojasiewicz condition for the dual
variables, which is easy to verify and applicable to a wide range of
reinforcement learning (RL) scenarios. The algorithm and analysis are general
enough to be applied to other RL settings, like multi-agent RL. Empirical
results on OpenAI Gym continuous control tasks corroborate our theoretical
findings.
- Abstract(参考訳): 非線形関数近似を伴うアクタ-クリティックアルゴリズムの非凸-非凸原始-双対定式化による収束について検討する。
確率勾配降下上昇は、頑健な学習率の適応的近位項で適用される。
第一段階のアクター-クリティックによる最初の効率的な収束結果を示す:$\mathcal{o}\left(\sqrt{\frac{\ln \left(n d g^2 \right)}{n}}\right)$ マルコフサンプリングでは、$g$ は勾配の要素回りの最大値、$n$ は反復数、$d$ は勾配の次元である。
この結果は2変数に対してPolyak-\L{}ojasiewicz条件のみで示され、これは検証が容易であり、広範囲の強化学習(RL)シナリオに適用できる。
アルゴリズムと解析は、マルチエージェントRLのような他のRL設定に適用できるほど一般的である。
OpenAI Gym連続制御タスクの実証結果が理論的知見の裏付けとなる。
関連論文リスト
- Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Analysis of the expected $L_2$ error of an over-parametrized deep neural
network estimate learned by gradient descent without regularization [7.977229957867868]
近年の研究では、正規化された経験的リスクに勾配降下を適用して学習した過度パラメータ化されたディープニューラルネットワークによって定義される推定値が、普遍的に一貫していることが示されている。
本稿では、同様の結果を得るために正規化項は必要ないことを示す。
論文 参考訳(メタデータ) (2023-11-24T17:04:21Z) - Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。
本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文 参考訳(メタデータ) (2023-10-21T18:38:13Z) - Restricted Strong Convexity of Deep Learning Models with Smooth
Activations [31.003601717265006]
本研究では,スムーズなアクティベーション機能を持つディープラーニングモデルの最適化問題について検討する。
Restricted Strong Convexity (RSC) に基づく最適化の新しい解析手法を提案する。
深層学習モデルのためのRCCに基づくGDの幾何収束性を確立するための最初の結果である。
論文 参考訳(メタデータ) (2022-09-29T21:24:26Z) - Stochastic Zeroth order Descent with Structured Directions [10.604744518360464]
我々は, 有限差分法であるStructured Zeroth Order Descent (SSZD)を導入・解析し, 集合 $lleq d 方向の勾配を近似し, $d は周囲空間の次元である。
凸凸に対して、すべての$c1/2$に対して$O( (d/l) k-c1/2$)$ 上の関数の収束はほぼ確実に証明する。
論文 参考訳(メタデータ) (2022-06-10T14:00:06Z) - A first-order primal-dual method with adaptivity to local smoothness [64.62056765216386]
凸凹対象 $min_x max_y f(x) + langle Ax, yrangle - g*(y)$, ここで、$f$ は局所リプシッツ勾配を持つ凸関数であり、$g$ は凸かつ非滑らかである。
主勾配ステップと2段ステップを交互に交互に行うCondat-Vuアルゴリズムの適応バージョンを提案する。
論文 参考訳(メタデータ) (2021-10-28T14:19:30Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文 参考訳(メタデータ) (2020-05-21T17:36:09Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。