論文の概要: Closing the Gap: Achieving Global Convergence (Last Iterate) of Actor-Critic under Markovian Sampling with Neural Network Parametrization
- arxiv url: http://arxiv.org/abs/2405.01843v1
- Date: Fri, 3 May 2024 04:26:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 13:45:11.360667
- Title: Closing the Gap: Achieving Global Convergence (Last Iterate) of Actor-Critic under Markovian Sampling with Neural Network Parametrization
- Title(参考訳): ギャップの閉鎖:ニューラル・ネットワーク・パラメトリゼーションによるマルコフサンプリング下でのアクター・クライトのグローバル・コンバージェンス(Last Iterate)の実現
- Authors: Mudit Gaur, Vaneet Aggarwal, Amrit Singh Bedi, Di Wang,
- Abstract要約: Actor-Critic (AC)アルゴリズムの最近の理論的解析は、AC実装の実践的な側面に対処する上での遅延である。
我々は,5つの重要な実践的側面をすべて包含するACアルゴリズムの包括的理論的解析を行った。
- 参考スコア(独自算出の注目度): 40.4401813726949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The current state-of-the-art theoretical analysis of Actor-Critic (AC) algorithms significantly lags in addressing the practical aspects of AC implementations. This crucial gap needs bridging to bring the analysis in line with practical implementations of AC. To address this, we advocate for considering the MMCLG criteria: \textbf{M}ulti-layer neural network parametrization for actor/critic, \textbf{M}arkovian sampling, \textbf{C}ontinuous state-action spaces, the performance of the \textbf{L}ast iterate, and \textbf{G}lobal optimality. These aspects are practically significant and have been largely overlooked in existing theoretical analyses of AC algorithms. In this work, we address these gaps by providing the first comprehensive theoretical analysis of AC algorithms that encompasses all five crucial practical aspects (covers MMCLG criteria). We establish global convergence sample complexity bounds of $\tilde{\mathcal{O}}\left({\epsilon^{-3}}\right)$. We achieve this result through our novel use of the weak gradient domination property of MDP's and our unique analysis of the error in critic estimation.
- Abstract(参考訳): Actor-Critic(AC)アルゴリズムの現在最先端の理論解析は、AC実装の実践的な側面に対処する上で著しく遅れている。
この重要なギャップは、ACの実践的な実装に合わせて分析を行うために橋渡しが必要である。
そこで本論文では,アクタ/アクタ/アクタ/アクタ/アクタ/マルチ層ニューラルネットワークパラメトリゼーション,テキストbf{M}アルコビアンサンプリング,テキストbf{C}非連続状態-アクション空間,テキストbf{L}astイテレートの性能,およびテキストbf{G}ロバル最適性について,MCMCLGの基準を検討することを提案する。
これらの側面は実質的に重要であり、既存のACアルゴリズムの理論解析ではほとんど見過ごされてきた。
本研究は,5つの重要な実践的側面(MCLG基準の範囲)をすべて包含するACアルゴリズムの包括的理論的解析を提供することにより,これらのギャップに対処する。
我々は、大域収束サンプル複雑性境界を$\tilde{\mathcal{O}}\left({\epsilon^{-3}}\right)$とする。
我々は,MDPの弱勾配支配特性と,批判的推定における誤差のユニークな解析を用いて,この結果を実現する。
関連論文リスト
- On The Global Convergence Of Online RLHF With Neural Parametrization [36.239015146313136]
Reinforcement Learning from Human Feedback (RLHF)は、大きな言語モデルと人間の価値を結びつけることを目的としている。
RLHFは、教師付き微調整、報酬学習、政策学習を含む3段階のプロセスである。
本稿では、パラメータ化設定におけるAIアライメントのための2段階の定式化を提案し、この問題を解決するための一階法を提案する。
論文 参考訳(メタデータ) (2024-10-21T03:13:35Z) - On the Global Convergence of Natural Actor-Critic with Two-layer Neural
Network Parametrization [38.32265770020665]
本稿では,ニューラルネットワークを用いた自然なアクター批判アルゴリズムについて検討する。
本研究の目的は,本アルゴリズムの性能特性のより深い理解を実現することにある。
論文 参考訳(メタデータ) (2023-06-18T06:22:04Z) - Can Decentralized Stochastic Minimax Optimization Algorithms Converge
Linearly for Finite-Sum Nonconvex-Nonconcave Problems? [56.62372517641597]
分散化されたミニマックス最適化は、幅広い機械学習に応用されているため、ここ数年で活発に研究されている。
本稿では,非コンカブ問題に対する2つの新しい分散化ミニマックス最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-24T02:19:39Z) - Generalization analysis of an unfolding network for analysis-based
Compressed Sensing [27.53377180094267]
展開ネットワークは、圧縮センシング(CS)分野において有望な結果を示している。
本稿では,最先端ADMMに基づく展開ネットワークの一般化解析を行う。
論文 参考訳(メタデータ) (2023-03-09T21:13:32Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Global Convergence of Two-timescale Actor-Critic for Solving Linear
Quadratic Regulator [43.13238243240668]
我々は、$epsilon$-optimal Solutionへのグローバル収束を確立するための新しい分析フレームワークを開発する。
これは、LQRを大域的最適で解くための単一のサンプル2時間スケールACに対する最初の有限時間収束解析である。
論文 参考訳(メタデータ) (2022-08-18T09:57:03Z) - Optimizing Two-way Partial AUC with an End-to-end Framework [154.47590401735323]
ROC曲線のエリア(AUC)は、機械学習にとって重要な指標である。
最近の研究は、TPAUCが既存のPartial AUCメトリクスと本質的に矛盾していることを示している。
本論文では,この新指標を最適化するための最初の試行について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:21:30Z) - Finite-Sum Coupled Compositional Stochastic Optimization: Theory and
Applications [43.48388050033774]
本稿では,非凸目的と凸目標の両方に対して単純なアルゴリズムを包括的に解析する。
また,外層と内層に等しい大きさのバッチをサンプリングすることで,実用的実装を改善するための新たな知見も提示した。
論文 参考訳(メタデータ) (2022-02-24T22:39:35Z) - Approximation Algorithms for Sparse Principal Component Analysis [57.5357874512594]
主成分分析(PCA)は、機械学習と統計学において広く使われている次元削減手法である。
スパース主成分分析(Sparse principal Component Analysis)と呼ばれる,スパース主成分負荷を求める様々な手法が提案されている。
本研究では,SPCA問題に対するしきい値の精度,時間,近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-23T04:25:36Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。