論文の概要: Asynchronous Federated Reinforcement Learning with Policy Gradient Updates: Algorithm Design and Convergence Analysis
- arxiv url: http://arxiv.org/abs/2404.08003v3
- Date: Wed, 02 Oct 2024 19:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:27:05.094577
- Title: Asynchronous Federated Reinforcement Learning with Policy Gradient Updates: Algorithm Design and Convergence Analysis
- Title(参考訳): ポリシーグラディエント更新による非同期フェデレーション強化学習:アルゴリズム設計と収束解析
- Authors: Guangchen Lan, Dong-Jun Han, Abolfazl Hashemi, Vaneet Aggarwal, Christopher G. Brinton,
- Abstract要約: N$エージェント間の協調によりグローバルモデルを構築する非同期強化学習フレームワークAFedPGを提案する。
我々は, AFedPGの理論的大域収束境界を解析し, サンプル複雑性と時間複雑性の両方の観点から, 提案アルゴリズムの利点を特徴づける。
我々は,多種多様なエージェントを持つ4つの広く使用されている MuJoCo 環境における AFedPG の性能改善を実証的に検証した。
- 参考スコア(独自算出の注目度): 41.75366066380951
- License:
- Abstract: To improve the efficiency of reinforcement learning (RL), we propose a novel asynchronous federated reinforcement learning (FedRL) framework termed AFedPG, which constructs a global model through collaboration among $N$ agents using policy gradient (PG) updates. To address the challenge of lagged policies in asynchronous settings, we design a delay-adaptive lookahead technique \textit{specifically for FedRL} that can effectively handle heterogeneous arrival times of policy gradients. We analyze the theoretical global convergence bound of AFedPG, and characterize the advantage of the proposed algorithm in terms of both the sample complexity and time complexity. Specifically, our AFedPG method achieves $O(\frac{{\epsilon}^{-2.5}}{N})$ sample complexity for global convergence at each agent on average. Compared to the single agent setting with $O(\epsilon^{-2.5})$ sample complexity, it enjoys a linear speedup with respect to the number of agents. Moreover, compared to synchronous FedPG, AFedPG improves the time complexity from $O(\frac{t_{\max}}{N})$ to $O({\sum_{i=1}^{N} \frac{1}{t_{i}}})^{-1}$, where $t_{i}$ denotes the time consumption in each iteration at agent $i$, and $t_{\max}$ is the largest one. The latter complexity $O({\sum_{i=1}^{N} \frac{1}{t_{i}}})^{-1}$ is always smaller than the former one, and this improvement becomes significant in large-scale federated settings with heterogeneous computing powers ($t_{\max}\gg t_{\min}$). Finally, we empirically verify the improved performance of AFedPG in four widely-used MuJoCo environments with varying numbers of agents. We also demonstrate the advantages of AFedPG in various computing heterogeneity scenarios.
- Abstract(参考訳): AFedPGと呼ばれる新しい非同期統合強化学習(FedRL)フレームワークを提案する。これはポリシー勾配(PG)更新を用いたN$エージェント間の協調によるグローバルモデルの構築である。
非同期設定におけるラタグポリシーの課題に対処するために、ポリシー勾配の不均一な到着時間を効果的に処理できる遅延適応型ルックアヘッド技術である「FedRL」を設計する。
AFedPGの理論的大域収束境界を解析し、サンプルの複雑さと時間複雑性の両方の観点から提案アルゴリズムの利点を特徴づける。
具体的には、AFedPG法は、平均して各エージェントにおけるグローバル収束のためのサンプル複雑さを$O(\frac{{\epsilon}^{-2.5}}{N})で達成する。
サンプル複雑性を$O(\epsilon^{-2.5})で設定した単一エージェントと比較して、エージェントの数に関して線形スピードアップを楽しむ。
さらに、同期FedPGと比較して、AFedPGは時間複雑性を$O(\frac{t_{\max}}{N})$から$O({\sum_{i=1}^{N} \frac{1}{t_{i}}})^{-1}$に改善する。
後者の複雑さ$O({\sum_{i=1}^{N} \frac{1}{t_{i}}})^{-1}$は常に以前のものよりも小さくなり、この改善は異種コンピューティングパワー(t_{\max}\gg t_{\min}$)を持つ大規模なフェデレーション設定において重要である。
最後に,多種多様なエージェントを持つ4つの広く使用されている MuJoCo 環境における AFedPG の性能改善を実証的に検証した。
また、様々な計算の不均一性シナリオにおけるAFedPGの利点を実証する。
関連論文リスト
- Freya PAGE: First Optimal Time Complexity for Large-Scale Nonconvex Finite-Sum Optimization with Heterogeneous Asynchronous Computations [92.1840862558718]
実用的な分散システムでは、労働者は概して均質ではなく、非常に多様な処理時間を持つ。
本稿では、任意に遅い計算を扱うための新しい並列手法Freyaを提案する。
Freyaは従来の手法と比較して,複雑性の保証が大幅に向上していることを示す。
論文 参考訳(メタデータ) (2024-05-24T13:33:30Z) - Improved Sample Complexity Analysis of Natural Policy Gradient Algorithm
with General Parameterization for Infinite Horizon Discounted Reward Markov
Decision Processes [41.61653528766776]
本稿では, 自然政策勾配を求めるために, 加速勾配降下過程を利用する自然促進政策勾配(PGAN)アルゴリズムを提案する。
繰り返しは$mathcalO(epsilon-2)$サンプル複雑性と$mathcalO(epsilon-1)$複雑さを達成する。
Hessian-free および IS-free アルゴリズムのクラスでは、ANPG は $mathcalO(epsilon-frac12)$ の係数で最もよく知られたサンプルの複雑さを破り、それらの状態と同時に一致する。
論文 参考訳(メタデータ) (2023-10-18T03:00:15Z) - Convergence Analysis of Decentralized ASGD [1.8710230264817358]
本稿では,ノード間の部分同期や制限的ネットワークトポロジを必要としない分散非同期SGD(DASGD)に対する新しい収束速度解析法を提案する。
我々の収束証明は、固定段数と任意の非滑らかで同質でL字型の目的函数を仮定する。
論文 参考訳(メタデータ) (2023-09-07T14:50:31Z) - Scalable Primal-Dual Actor-Critic Method for Safe Multi-Agent RL with
General Utilities [12.104551746465932]
安全マルチエージェント強化学習について検討し、エージェントはそれぞれの安全制約を満たしつつ、局所的な目的の総和をまとめて最大化しようとする。
我々のアルゴリズムは、$mathcalOleft(T-2/3right)$のレートで1次定常点(FOSP)に収束する。
サンプルベースの設定では、高い確率で、我々のアルゴリズムは、$epsilon$-FOSPを達成するために$widetildemathcalOleft(epsilon-3.5right)$サンプルが必要です。
論文 参考訳(メタデータ) (2023-05-27T20:08:35Z) - Stochastic Policy Gradient Methods: Improved Sample Complexity for
Fisher-non-degenerate Policies [19.779044926914704]
我々は、フィッシャー非退化パラメタライズドポリシーの一般クラスに対する改善されたグローバルコンバージェンス保証を開発する。
本研究では,Implicit Gradient Transport (N-PG-IGT) を用いた正規化政策勾配法を提案し,この手法のサンプル複雑性を$tildemathcalO(varepsilon-2.5)$とする。
我々はこの複雑さをさらに改善し、ヘッセン支援再帰政策勾配を考慮し、$tilde MathcalmathcalO (varepsilon-2)$に改善する。
論文 参考訳(メタデータ) (2023-02-03T13:50:23Z) - ReSQueing Parallel and Private Stochastic Convex Optimization [59.53297063174519]
本稿では,BFG凸最適化(SCO: Reweighted Query (ReSQue) 推定ツールを提案する。
我々はSCOの並列およびプライベート設定における最先端の複雑さを実現するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-01T18:51:29Z) - Sharper Convergence Guarantees for Asynchronous SGD for Distributed and
Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。
本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。
また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:10:57Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Improving Sample Complexity Bounds for (Natural) Actor-Critic Algorithms [58.57004511121862]
本稿では, マルコフサンプリングにおけるACおよびNACの収束速度とサンプリング複雑性を特徴付ける。
本稿では,ACとNACがPGおよびNPGに対して,批判の組み合わさりにより,無限の地平線下での順に性能改善を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-27T17:11:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。