Fugu-MT 論文翻訳(概要): Closing the Gap: Achieving Global Convergence (Last Iterate) of Actor-Critic under Markovian Sampling with Neural Network Parametrization

論文の概要: Closing the Gap: Achieving Global Convergence (Last Iterate) of Actor-Critic under Markovian Sampling with Neural Network Parametrization

arxiv url: http://arxiv.org/abs/2405.01843v1
Date: Fri, 3 May 2024 04:26:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-06 13:45:11.360667
Title: Closing the Gap: Achieving Global Convergence (Last Iterate) of Actor-Critic under Markovian Sampling with Neural Network Parametrization
Title（参考訳）: ギャップの閉鎖:ニューラル・ネットワーク・パラメトリゼーションによるマルコフサンプリング下でのアクター・クライトのグローバル・コンバージェンス(Last Iterate)の実現
Authors: Mudit Gaur, Vaneet Aggarwal, Amrit Singh Bedi, Di Wang,
Abstract要約: Actor-Critic (AC)アルゴリズムの最近の理論的解析は、AC実装の実践的な側面に対処する上での遅延である。我々は,5つの重要な実践的側面をすべて包含するACアルゴリズムの包括的理論的解析を行った。
参考スコア（独自算出の注目度）: 40.4401813726949
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The current state-of-the-art theoretical analysis of Actor-Critic (AC) algorithms significantly lags in addressing the practical aspects of AC implementations. This crucial gap needs bridging to bring the analysis in line with practical implementations of AC. To address this, we advocate for considering the MMCLG criteria: \textbf{M}ulti-layer neural network parametrization for actor/critic, \textbf{M}arkovian sampling, \textbf{C}ontinuous state-action spaces, the performance of the \textbf{L}ast iterate, and \textbf{G}lobal optimality. These aspects are practically significant and have been largely overlooked in existing theoretical analyses of AC algorithms. In this work, we address these gaps by providing the first comprehensive theoretical analysis of AC algorithms that encompasses all five crucial practical aspects (covers MMCLG criteria). We establish global convergence sample complexity bounds of $\tilde{\mathcal{O}}\left({\epsilon^{-3}}\right)$. We achieve this result through our novel use of the weak gradient domination property of MDP's and our unique analysis of the error in critic estimation.
Abstract（参考訳）: Actor-Critic(AC)アルゴリズムの現在最先端の理論解析は、AC実装の実践的な側面に対処する上で著しく遅れている。この重要なギャップは、ACの実践的な実装に合わせて分析を行うために橋渡しが必要である。そこで本論文では,アクタ/アクタ/アクタ/アクタ/アクタ/マルチ層ニューラルネットワークパラメトリゼーション,テキストbf{M}アルコビアンサンプリング,テキストbf{C}非連続状態-アクション空間,テキストbf{L}astイテレートの性能,およびテキストbf{G}ロバル最適性について,MCMCLGの基準を検討することを提案する。これらの側面は実質的に重要であり、既存のACアルゴリズムの理論解析ではほとんど見過ごされてきた。本研究は,5つの重要な実践的側面(MCLG基準の範囲)をすべて包含するACアルゴリズムの包括的理論的解析を提供することにより,これらのギャップに対処する。我々は、大域収束サンプル複雑性境界を$\tilde{\mathcal{O}}\left({\epsilon^{-3}}\right)$とする。我々は,MDPの弱勾配支配特性と,批判的推定における誤差のユニークな解析を用いて,この結果を実現する。

関連論文リスト

On Multi-Step Theorem Prediction via Non-Parametric Structural Priors [50.16583672681106]
本研究では,インコンテキスト学習(ICL)のレンズによる学習自由な定理予測について検討する。本稿では,過去の解の時間的依存関係を有向グラフとしてエンコードし,推論中に探索空間を効果的に引き起こす明示的なトポロジ的制約を課すTheorem Precedence Graphsを提案する。 FormalGeo7kベンチマークの実験から,本手法は89.29%の精度を実現し,ICLベースラインを著しく上回り,最先端の教師付きモデルに適合することがわかった。
論文参考訳（メタデータ） (2026-03-05T06:08:50Z)
Central Limit Theorem for ergodic averages of Markov chains \& the comparison of sampling algorithms for heavy-tailed distributions [42.17343824099138]
一般状態空間上のマルコフ連鎖のエルゴード平均の CLT に対する検証可能な必要条件を提供する。我々の理論はドリフト条件に基づいており、これはまた様々な指標においてステーションへの収束率の低い境界をもたらす。
論文参考訳（メタデータ） (2025-12-20T07:37:55Z)
MAP Estimation with Denoisers: Convergence Rates and Guarantees [37.88502562012743]
簡単なアルゴリズムは、前の$p$の対数共共役仮定の下で近似演算子に収束することを示す。このアルゴリズムは, 滑らかな近位対象の勾配勾配として解釈できることを示す。
論文参考訳（メタデータ） (2025-07-21T08:59:33Z)
A New Scope and Domain Measure Comparison Method for Global Convergence Analysis in Evolutionary Computation [23.43738935769317]
我々は,ECアルゴリズムのグローバル収束を解析するための新しいスコープと領域測度比較法(SDMC)を提案する。従来の手法とは異なり、SDMC法は単純であり、マルコフ連鎖モデリングをバイパスし、誤適用によるエラーを最小限にする。 SDMCを従来の手法には適さない2種類のアルゴリズムに適用し,グローバル収束解析におけるその有効性を確認した。
論文参考訳（メタデータ） (2025-05-07T03:04:18Z)
Covariates-Adjusted Mixed-Membership Estimation: A Novel Network Model with Optimal Guarantees [3.6936359356095454]
本稿では,ネットワークにおける推定の問題に対処し,ネットワークから潜在混合メンバーシップ構造を効率的に推定することを目的とする。本稿では,情報とノード共メンバシップモデルとの類似性の両方を取り入れた新しいモデルを提案する。提案手法は類似度行列とフロベニウスノルムのエントリー損失の両方に対して最適精度が得られることを示す。
論文参考訳（メタデータ） (2025-02-10T16:56:00Z)
On The Global Convergence Of Online RLHF With Neural Parametrization [36.239015146313136]
Reinforcement Learning from Human Feedback (RLHF)は、大きな言語モデルと人間の価値を結びつけることを目的としている。 RLHFは、教師付き微調整、報酬学習、政策学習を含む3段階のプロセスである。本稿では、パラメータ化設定におけるAIアライメントのための2段階の定式化を提案し、この問題を解決するための一階法を提案する。
論文参考訳（メタデータ） (2024-10-21T03:13:35Z)
Last-Iterate Convergence of Adaptive Riemannian Gradient Descent for Equilibrium Computation [52.73824786627612]
本稿では,テクスト幾何学的強単調ゲームに対する新たな収束結果を確立する。我々のキーとなる結果は、RGDがテクスト幾何学的手法で最終定位線形収束を実現することを示しています。全体として、ユークリッド設定を超えるゲームに対して、幾何学的に非依存な最終点収束解析を初めて提示する。
論文参考訳（メタデータ） (2023-06-29T01:20:44Z)
On the Global Convergence of Natural Actor-Critic with Two-layer Neural Network Parametrization [38.32265770020665]
本稿では,ニューラルネットワークを用いた自然なアクター批判アルゴリズムについて検討する。本研究の目的は,本アルゴリズムの性能特性のより深い理解を実現することにある。
論文参考訳（メタデータ） (2023-06-18T06:22:04Z)
Can Decentralized Stochastic Minimax Optimization Algorithms Converge Linearly for Finite-Sum Nonconvex-Nonconcave Problems? [56.62372517641597]
分散化されたミニマックス最適化は、幅広い機械学習に応用されているため、ここ数年で活発に研究されている。本稿では,非コンカブ問題に対する2つの新しい分散化ミニマックス最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-24T02:19:39Z)
Generalization analysis of an unfolding network for analysis-based Compressed Sensing [27.53377180094267]
展開ネットワークは、圧縮センシング(CS)分野において有望な結果を示している。本稿では,最先端ADMMに基づく展開ネットワークの一般化解析を行う。
論文参考訳（メタデータ） (2023-03-09T21:13:32Z)
Stability and Generalization Analysis of Gradient Methods for Shallow Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文参考訳（メタデータ） (2022-09-19T18:48:00Z)
Global Convergence of Two-timescale Actor-Critic for Solving Linear Quadratic Regulator [43.13238243240668]
我々は、$epsilon$-optimal Solutionへのグローバル収束を確立するための新しい分析フレームワークを開発する。これは、LQRを大域的最適で解くための単一のサンプル2時間スケールACに対する最初の有限時間収束解析である。
論文参考訳（メタデータ） (2022-08-18T09:57:03Z)
Optimizing Two-way Partial AUC with an End-to-end Framework [154.47590401735323]
ROC曲線のエリア(AUC)は、機械学習にとって重要な指標である。最近の研究は、TPAUCが既存のPartial AUCメトリクスと本質的に矛盾していることを示している。本論文では,この新指標を最適化するための最初の試行について述べる。
論文参考訳（メタデータ） (2022-06-23T12:21:30Z)
Finite-Sum Coupled Compositional Stochastic Optimization: Theory and Applications [43.48388050033774]
本稿では,非凸目的と凸目標の両方に対して単純なアルゴリズムを包括的に解析する。また,外層と内層に等しい大きさのバッチをサンプリングすることで,実用的実装を改善するための新たな知見も提示した。
論文参考訳（メタデータ） (2022-02-24T22:39:35Z)
Approximation Algorithms for Sparse Principal Component Analysis [57.5357874512594]
主成分分析(PCA)は、機械学習と統計学において広く使われている次元削減手法である。スパース主成分分析(Sparse principal Component Analysis)と呼ばれる,スパース主成分負荷を求める様々な手法が提案されている。本研究では,SPCA問題に対するしきい値の精度,時間,近似アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-23T04:25:36Z)
Second-Order Guarantees in Centralized, Federated and Decentralized Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文参考訳（メタデータ） (2020-03-31T16:54:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。