Fugu-MT 論文翻訳(概要): Finite-Time Analysis of Fully Decentralized Single-Timescale Actor-Critic

論文の概要: Finite-Time Analysis of Fully Decentralized Single-Timescale Actor-Critic

arxiv url: http://arxiv.org/abs/2206.05733v1
Date: Sun, 12 Jun 2022 13:14:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-15 08:07:50.618632
Title: Finite-Time Analysis of Fully Decentralized Single-Timescale Actor-Critic
Title（参考訳）: 完全分散型シングルタイムスケールアクタ臨界の有限時間解析
Authors: Qijun Luo, Xiao Li
Abstract要約: 本稿では,アクタ,批評家,グローバル報酬推定器を交互に更新する,完全に分散化されたアクタ・クリティカル(AC)アルゴリズムを提案する。このアルゴリズムは,Markovian サンプリングにおいて $tildemathcalO(epsilon-2)$ のサンプル複雑性を持つことを示す。また、我々のアルゴリズムのローカルアクションプライバシ保護バージョンとその分析も提供する。
参考スコア（独自算出の注目度）: 4.94128206910124
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Decentralized Actor-Critic (AC) algorithms have been widely utilized for multi-agent reinforcement learning (MARL) and have achieved remarkable success. Apart from its empirical success, the theoretical convergence property of decentralized AC algorithms is largely unexplored. The existing finite-time convergence results are derived based on either double-loop update or two-timescale step sizes rule, which is not often adopted in real implementation. In this work, we introduce a fully decentralized AC algorithm, where actor, critic, and global reward estimator are updated in an alternating manner with step sizes being of the same order, namely, we adopt the \emph{single-timescale} update. Theoretically, using linear approximation for value and reward estimation, we show that our algorithm has sample complexity of $\tilde{\mathcal{O}}(\epsilon^{-2})$ under Markovian sampling, which matches the optimal complexity with double-loop implementation (here, $\tilde{\mathcal{O}}$ hides a log term). The sample complexity can be improved to ${\mathcal{O}}(\epsilon^{-2})$ under the i.i.d. sampling scheme. The central to establishing our complexity results is \emph{the hidden smoothness of the optimal critic variable} we revealed. We also provide a local action privacy-preserving version of our algorithm and its analysis. Finally, we conduct experiments to show the superiority of our algorithm over the existing decentralized AC algorithms.
Abstract（参考訳）: 分散Actor-Critic (AC) アルゴリズムはマルチエージェント強化学習 (MARL) に広く利用されており、大きな成功を収めている。実験的な成功とは別に、分散化ACアルゴリズムの理論的収束性はほとんど未解明である。既存の有限時間収束結果は、実実装では採用されない二重ループ更新または2時間ステップサイズルールに基づいて導出される。本稿では,アクタ,批評家,グローバル報酬推定器を,ステップサイズを同じ順序で交互に更新する,完全に分散化されたACアルゴリズムを提案する。理論的には、値と報酬の推定に線形近似を用いると、このアルゴリズムはマルコビアンサンプリングの下でのサンプル複雑性が$\tilde{\mathcal{O}}(\epsilon^{-2})$であることを示し、これは二重ループ実装の最適複雑性と一致する(ここでは$\tilde{\mathcal{O}}$がログ項を隠す)。サンプルの複雑さは、i.i.d.サンプリングスキームの下で${\mathcal{o}}(\epsilon^{-2})$に改善できる。複雑性結果の確立の中心は、我々が明らかにした最適批評家変数の隠された滑らかさである。また、我々のアルゴリズムのローカルアクションプライバシ保護バージョンとその分析も提供する。最後に,既存の分散交流アルゴリズムよりもアルゴリズムの優越性を示す実験を行った。

関連論文リスト

Fully First-Order Methods for Decentralized Bilevel Optimization [17.20330936572045]
本稿では,エージェントが隣人とのみ通信する分散二段階最適化(DSBO)に焦点を当てる。本稿では,既存の作品に広く採用されている2次オラクルよりもはるかに安価な1次オラクルのみを必要とする新しいアルゴリズムである,分散グラディエントDescent and Ascent with Gradient Tracking (DSGDA-GT)を提案する。
論文参考訳（メタデータ） (2024-10-25T06:11:43Z)
Improved Sample Complexity for Global Convergence of Actor-Critic Algorithms [49.19842488693726]
我々は,O(epsilon-3)$のサンプル複雑性を大幅に改善したアクター・クリティック・アルゴリズムのグローバル収束を確立した。我々の発見は、一定のステップサイズに依存する多くのアルゴリズムに対する理論的支援を提供する。
論文参考訳（メタデータ） (2024-10-11T14:46:29Z)
Tight Finite Time Bounds of Two-Time-Scale Linear Stochastic Approximation with Markovian Noise [9.82187447690297]
マルコフ雑音を伴う線形2時間スケール近似 (SA) の反復に対して, 厳密な収束を特徴付ける。この結果は,Polyak平均化を用いたTD学習,GTD,GTD2など,様々なRLアルゴリズムの収束挙動の確立に応用できる。
論文参考訳（メタデータ） (2023-12-31T01:30:14Z)
Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文参考訳（メタデータ） (2023-03-17T17:53:28Z)
A One-Sample Decentralized Proximal Algorithm for Non-Convex Stochastic Composite Optimization [10.762749887051546]
本稿では,Proxcal$DASA-GTとProxcal$DASA-Aの2時間スケールアルゴリズムを提案する。以前の作業とは異なり、我々のアルゴリズムは、大きなバッチサイズ、より複雑な単位演算、より強い仮定を必要とせずに、同等の複雑さを達成する。
論文参考訳（メタデータ） (2023-02-20T05:16:18Z)
DoCoM: Compressed Decentralized Optimization with Near-Optimal Sample Complexity [25.775517797956237]
本稿では,Douubly Compressed Momentum-assisted tracking algorithm $ttDoCoM$ for communicationを提案する。我々のアルゴリズムは、実際にいくつかの最先端のアルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2022-02-01T07:27:34Z)
Sample and Communication-Efficient Decentralized Actor-Critic Algorithms with Finite-Time Analysis [27.21581944906418]
Actor-critic (AC)アルゴリズムは分散マルチエージェントシステムで広く採用されている。我々は、プライベートでサンプルと通信効率のよい2つの分散ACと自然交流(NAC)アルゴリズムを開発した。
論文参考訳（メタデータ） (2021-09-08T15:02:21Z)
Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。 DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文参考訳（メタデータ） (2021-02-23T18:56:13Z)
Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。本研究の結果は, 同時一次および二重側収束の形で表される。
論文参考訳（メタデータ） (2020-08-23T20:36:49Z)
A Two-Timescale Framework for Bilevel Optimization: Complexity Analysis and Application to Actor-Critic [142.1492359556374]
双レベル最適化は、2レベル構造を示す問題のクラスである。このような二段階問題に対処するための2段階近似(TTSA)アルゴリズムを提案する。本稿では,TTSAフレームワークの特殊な事例として,2段階の自然なアクター・クリティカルポリシー最適化アルゴリズムが有用であることを示す。
論文参考訳（メタデータ） (2020-07-10T05:20:02Z)
Non-asymptotic Convergence Analysis of Two Time-scale (Natural) Actor-Critic Algorithms [58.57004511121862]
アクタークリティカル(AC)とナチュラルアクタークリティカル(NAC)のアルゴリズムは、最適なポリシーを見つけるために2つの方法で実行されることが多い。 2つの時間スケールACは、$mathcalO(epsilon-2.5log3(epsilon-1))$で、$epsilon$-accurateの定常点に達するために、全体のサンプルの複雑さを必要とすることを示す。我々は,動的にマルコフサンプリングが変化するため,アクターのバイアス誤差をバウンドする新しい手法を開発した。
論文参考訳（メタデータ） (2020-05-07T15:42:31Z)
Improving Sample Complexity Bounds for (Natural) Actor-Critic Algorithms [58.57004511121862]
本稿では, マルコフサンプリングにおけるACおよびNACの収束速度とサンプリング複雑性を特徴付ける。本稿では,ACとNACがPGおよびNPGに対して,批判の組み合わさりにより,無限の地平線下での順に性能改善を実現していることを示す。
論文参考訳（メタデータ） (2020-04-27T17:11:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。