Fugu-MT 論文翻訳(概要): Provably Efficient Convergence of Primal-Dual Actor-Critic with Nonlinear Function Approximation

論文の概要: Provably Efficient Convergence of Primal-Dual Actor-Critic with Nonlinear Function Approximation

arxiv url: http://arxiv.org/abs/2202.13863v1
Date: Mon, 28 Feb 2022 15:16:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-01 20:33:10.901704
Title: Provably Efficient Convergence of Primal-Dual Actor-Critic with Nonlinear Function Approximation
Title（参考訳）: 非線形関数近似を用いた高次アクター臨界の確率的収束
Authors: Jing Dong, Li Shen, Yinggan Xu, Baoxiang Wang
Abstract要約: The first efficient convergence result with primal-dual actor-critic with a convergence of $mathcalOleft ascent(Nright)Nright)$ under Polyian sample。 Open GymAI連続制御タスクの結果。
参考スコア（独自算出の注目度）: 15.319335698574932
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study the convergence of the actor-critic algorithm with nonlinear function approximation under a nonconvex-nonconcave primal-dual formulation. Stochastic gradient descent ascent is applied with an adaptive proximal term for robust learning rates. We show the first efficient convergence result with primal-dual actor-critic with a convergence rate of $\mathcal{O}\left(\sqrt{\frac{\ln \left(N d G^2 \right)}{N}}\right)$ under Markovian sampling, where $G$ is the element-wise maximum of the gradient, $N$ is the number of iterations, and $d$ is the dimension of the gradient. Our result is presented with only the Polyak-\L{}ojasiewicz condition for the dual variables, which is easy to verify and applicable to a wide range of reinforcement learning (RL) scenarios. The algorithm and analysis are general enough to be applied to other RL settings, like multi-agent RL. Empirical results on OpenAI Gym continuous control tasks corroborate our theoretical findings.
Abstract（参考訳）: 非線形関数近似を伴うアクタ-クリティックアルゴリズムの非凸-非凸原始-双対定式化による収束について検討する。確率勾配降下上昇は、頑健な学習率の適応的近位項で適用される。第一段階のアクター-クリティックによる最初の効率的な収束結果を示す:$\mathcal{o}\left(\sqrt{\frac{\ln \left(n d g^2 \right)}{n}}\right)$ マルコフサンプリングでは、$g$ は勾配の要素回りの最大値、$n$ は反復数、$d$ は勾配の次元である。この結果は2変数に対してPolyak-\L{}ojasiewicz条件のみで示され、これは検証が容易であり、広範囲の強化学習(RL)シナリオに適用できる。アルゴリズムと解析は、マルチエージェントRLのような他のRL設定に適用できるほど一般的である。 OpenAI Gym連続制御タスクの実証結果が理論的知見の裏付けとなる。

関連論文リスト

Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文参考訳（メタデータ） (2025-02-07T15:57:56Z)
Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文参考訳（メタデータ） (2024-11-12T11:30:53Z)
Analysis of the expected $L_2$ error of an over-parametrized deep neural network estimate learned by gradient descent without regularization [7.977229957867868]
近年の研究では、正規化された経験的リスクに勾配降下を適用して学習した過度パラメータ化されたディープニューラルネットワークによって定義される推定値が、普遍的に一貫していることが示されている。本稿では、同様の結果を得るために正規化項は必要ないことを示す。
論文参考訳（メタデータ） (2023-11-24T17:04:21Z)
Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文参考訳（メタデータ） (2023-10-21T18:38:13Z)
Enhanced Adaptive Gradient Algorithms for Nonconvex-PL Minimax Optimization [41.28002701420715]
ミニマックス最適化は多くの機械学習タスクに広く応用されている。我々は,本手法が特定の型に依存することなく,最もよく知られたサンプル複雑性を有することを示す。
論文参考訳（メタデータ） (2023-03-07T15:33:12Z)
Restricted Strong Convexity of Deep Learning Models with Smooth Activations [31.003601717265006]
本研究では,スムーズなアクティベーション機能を持つディープラーニングモデルの最適化問題について検討する。 Restricted Strong Convexity (RSC) に基づく最適化の新しい解析手法を提案する。深層学習モデルのためのRCCに基づくGDの幾何収束性を確立するための最初の結果である。
論文参考訳（メタデータ） (2022-09-29T21:24:26Z)
Stochastic Zeroth order Descent with Structured Directions [10.604744518360464]
我々は, 有限差分法であるStructured Zeroth Order Descent (SSZD)を導入・解析し, 集合 $lleq d 方向の勾配を近似し, $d は周囲空間の次元である。凸凸に対して、すべての$c1/2$に対して$O( (d/l) k-c1/2$)$ 上の関数の収束はほぼ確実に証明する。
論文参考訳（メタデータ） (2022-06-10T14:00:06Z)
DoCoM: Compressed Decentralized Optimization with Near-Optimal Sample Complexity [25.775517797956237]
本稿では,Douubly Compressed Momentum-assisted tracking algorithm $ttDoCoM$ for communicationを提案する。我々のアルゴリズムは、実際にいくつかの最先端のアルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2022-02-01T07:27:34Z)
A first-order primal-dual method with adaptivity to local smoothness [64.62056765216386]
凸凹対象 $min_x max_y f(x) + langle Ax, yrangle - g*(y)$, ここで、$f$ は局所リプシッツ勾配を持つ凸関数であり、$g$ は凸かつ非滑らかである。主勾配ステップと2段ステップを交互に交互に行うCondat-Vuアルゴリズムの適応バージョンを提案する。
論文参考訳（メタデータ） (2021-10-28T14:19:30Z)
Randomized Exploration for Reinforcement Learning with General Value Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文参考訳（メタデータ） (2021-06-15T02:23:07Z)
Reinforcement Learning with General Value Function Approximation: Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文参考訳（メタデータ） (2020-05-21T17:36:09Z)
Towards Better Understanding of Adaptive Gradient Algorithms in Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文参考訳（メタデータ） (2019-12-26T22:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。