論文の概要: On the Global Convergence of Natural Actor-Critic with Two-layer Neural
Network Parametrization
- arxiv url: http://arxiv.org/abs/2306.10486v1
- Date: Sun, 18 Jun 2023 06:22:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 20:23:07.694259
- Title: On the Global Convergence of Natural Actor-Critic with Two-layer Neural
Network Parametrization
- Title(参考訳): 2層ニューラルネットワークパラメトリゼーションを用いた自然アクタークリティックの大域収束について
- Authors: Mudit Gaur, Amrit Singh Bedi, Di Wang, Vaneet Aggarwal
- Abstract要約: 本稿では,ニューラルネットワークを用いた自然なアクター批判アルゴリズムについて検討する。
本研究の目的は,本アルゴリズムの性能特性のより深い理解を実現することにある。
- 参考スコア(独自算出の注目度): 38.32265770020665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Actor-critic algorithms have shown remarkable success in solving
state-of-the-art decision-making problems. However, despite their empirical
effectiveness, their theoretical underpinnings remain relatively unexplored,
especially with neural network parametrization. In this paper, we delve into
the study of a natural actor-critic algorithm that utilizes neural networks to
represent the critic. Our aim is to establish sample complexity guarantees for
this algorithm, achieving a deeper understanding of its performance
characteristics. To achieve that, we propose a Natural Actor-Critic algorithm
with 2-Layer critic parametrization (NAC2L). Our approach involves estimating
the $Q$-function in each iteration through a convex optimization problem. We
establish that our proposed approach attains a sample complexity of
$\tilde{\mathcal{O}}\left(\frac{1}{\epsilon^{4}(1-\gamma)^{4}}\right)$. In
contrast, the existing sample complexity results in the literature only hold
for a tabular or linear MDP. Our result, on the other hand, holds for countable
state spaces and does not require a linear or low-rank structure on the MDP.
- Abstract(参考訳): アクター批判アルゴリズムは最先端の意思決定問題を解決するのに顕著な成功を収めた。
しかしながら、その経験的効果にもかかわらず、その理論的基盤は、特にニューラルネットワークのパラメトリゼーションにおいて、比較的未探査のままである。
本稿では,ニューラルネットを用いて批評家を表現する自然なアクタ-クリティックアルゴリズムの研究について述べる。
本研究の目的は,本アルゴリズムの性能特性をより深く理解し,サンプル複雑性の保証を確立することである。
そこで本研究では,2層批判パラメトリゼーション(NAC2L)を用いたNatural Actor-Criticアルゴリズムを提案する。
我々のアプローチでは、凸最適化問題を通じて各イテレーションの$q$関数を推定する。
提案手法により,$\tilde{\mathcal{o}}\left(\frac{1}{\epsilon^{4}(1-\gamma)^{4}}\right)$ のサンプル複雑性が得られることを確認した。
対照的に、文献中の既存のサンプルの複雑さは、表状または線形のMDPのみを保持する。
一方、この結果は可算な状態空間に対して成り立ち、MDP上の線形構造やローランク構造を必要としない。
関連論文リスト
- Improved Sample Complexity for Global Convergence of Actor-Critic Algorithms [49.19842488693726]
我々は,O(epsilon-3)$のサンプル複雑性を大幅に改善したアクター・クリティック・アルゴリズムのグローバル収束を確立した。
我々の発見は、一定のステップサイズに依存する多くのアルゴリズムに対する理論的支援を提供する。
論文 参考訳(メタデータ) (2024-10-11T14:46:29Z) - A Single-Loop Deep Actor-Critic Algorithm for Constrained Reinforcement Learning with Provable Convergence [7.586600116278698]
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)
論文 参考訳(メタデータ) (2023-06-10T10:04:54Z) - On the Global Convergence of Fitted Q-Iteration with Two-layer Neural
Network Parametrization [33.12181620473604]
本稿では,2層型ReLUニューラルネットワークを用いたQ-Iterationについて検討し,アルゴリズムの複雑さの保証を求める。
このアプローチは,オーダー最適化である $tildemathcalO (1/epsilon2)$ のサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2022-11-14T19:00:24Z) - Finite-Time Analysis of Entropy-Regularized Neural Natural Actor-Critic
Algorithm [29.978816372127085]
ニューラルネットワーク近似を用いたNatural actor-critic (NAC) の有限時間解析を行った。
ニューラルネットワーク,正規化,最適化技術の役割を特定し,優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-02T02:13:29Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Finite-Sample Analysis of Off-Policy Natural Actor-Critic Algorithm [4.932130498861987]
重要度サンプリングに基づく自然アクタ-クリティック(nac)アルゴリズムのオフポリシー変種に対する有限サンプル収束保証を提供する。
このアルゴリズムは、ステップの適切な選択の下で$mathcalo(epsilon-3log2(1/epsilon)$のサンプル複雑性を持つ大域的最適ポリシーに収束する。
論文 参考訳(メタデータ) (2021-02-18T13:22:59Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Deep neural networks for inverse problems with pseudodifferential
operators: an application to limited-angle tomography [0.4110409960377149]
線形逆問題において擬微分演算子(Psi$DOs)を学習するための新しい畳み込みニューラルネットワーク(CNN)を提案する。
フォワード演算子のより一般的な仮定の下では、ISTAの展開された反復はCNNの逐次的な層として解釈できることを示す。
特に、LA-CTの場合、アップスケーリング、ダウンスケーリング、畳み込みの操作は、制限角X線変換の畳み込み特性とウェーブレット系を定義する基本特性を組み合わせることで正確に決定できることを示す。
論文 参考訳(メタデータ) (2020-06-02T14:03:41Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。