論文の概要: Improved Communication Efficiency in Federated Natural Policy Gradient
via ADMM-based Gradient Updates
- arxiv url: http://arxiv.org/abs/2310.19807v1
- Date: Mon, 9 Oct 2023 16:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-05 13:43:06.395857
- Title: Improved Communication Efficiency in Federated Natural Policy Gradient
via ADMM-based Gradient Updates
- Title(参考訳): ADMMによる自然政策グラディエントにおけるコミュニケーション効率の向上
- Authors: Guangchen Lan, Han Wang, James Anderson, Christopher Brinton, Vaneet
Aggarwal
- Abstract要約: フェデレート強化学習(FedRL)は、エージェントが個々のデータを共有することなく、グローバルなポリシーを協調的に訓練することを可能にする。
我々は,乗算器の交互方向法を利用してグローバルNPG方向を効率的に近似するFedNPG-ADMMフレームワークを提案する。
我々は、FedNPG-ADMMが標準FedNPGの報酬性能を維持しており、その収束率は、フェデレートエージェントの数が増えると改善することを示した。
- 参考スコア(独自算出の注目度): 30.79390892386221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Federated reinforcement learning (FedRL) enables agents to collaboratively
train a global policy without sharing their individual data. However, high
communication overhead remains a critical bottleneck, particularly for natural
policy gradient (NPG) methods, which are second-order. To address this issue,
we propose the FedNPG-ADMM framework, which leverages the alternating direction
method of multipliers (ADMM) to approximate global NPG directions efficiently.
We theoretically demonstrate that using ADMM-based gradient updates reduces
communication complexity from ${O}({d^{2}})$ to ${O}({d})$ at each iteration,
where $d$ is the number of model parameters. Furthermore, we show that
achieving an $\epsilon$-error stationary convergence requires
${O}(\frac{1}{(1-\gamma)^{2}{\epsilon}})$ iterations for discount factor
$\gamma$, demonstrating that FedNPG-ADMM maintains the same convergence rate as
the standard FedNPG. Through evaluation of the proposed algorithms in MuJoCo
environments, we demonstrate that FedNPG-ADMM maintains the reward performance
of standard FedNPG, and that its convergence rate improves when the number of
federated agents increases.
- Abstract(参考訳): フェデレート強化学習(FedRL)は、エージェントが個々のデータを共有することなく、グローバルなポリシーを協調的に訓練することを可能にする。
しかし、特に2次の自然政策勾配法(NPG)では、高い通信オーバーヘッドが重大なボトルネックとなっている。
本稿では,乗算器の交互方向法(ADMM)を利用してグローバルNPG方向を効率的に近似するFedNPG-ADMMフレームワークを提案する。
理論的には、ADMMに基づく勾配更新を使用することで、各イテレーションにおいて${O}({d^{2}})$から${O}({d})$に通信複雑性が減少する。
さらに、$\epsilon$-error定常収束を達成するには、${o}(\frac{1}{(1-\gamma)^{2}{\epsilon}})$のディスカウント係数$\gamma$の反復が必要であり、fednpg-admmが標準のfednpgと同じ収束率を維持していることを示している。
提案したアルゴリズムを MuJoCo 環境で評価することにより,FedNPG-ADMM が標準FedNPG の報酬性能を維持し,フェデレートエージェントの数が増えると収束率が向上することを示した。
関連論文リスト
- Asynchronous Federated Reinforcement Learning with Policy Gradient Updates: Algorithm Design and Convergence Analysis [41.75366066380951]
AFedPGはポリシー勾配更新を使用して$N$エージェント間の協調を通じてグローバルモデルを構築する。
AFedPGの理論的大域収束境界を解析し、サンプルの複雑さと時間複雑性の両方の観点から提案アルゴリズムの利点を特徴づける。
エージェント数が異なる3つの MuJoCo 環境における AFedPG の性能改善を実証的に検証した。
論文 参考訳(メタデータ) (2024-04-09T04:21:13Z) - Federated Natural Policy Gradient Methods for Multi-task Reinforcement
Learning [49.65958529941962]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,各エージェントがそれぞれのタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。
本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文 参考訳(メタデータ) (2023-10-21T18:38:13Z) - DFedADMM: Dual Constraints Controlled Model Inconsistency for
Decentralized Federated Learning [52.83811558753284]
分散学習(DFL)は、中央サーバーを捨て、分散通信ネットワークを確立する。
既存のDFL手法は依然として、局所的な矛盾と局所的な過度なオーバーフィッティングという2つの大きな課題に悩まされている。
論文 参考訳(メタデータ) (2023-08-16T11:22:36Z) - Achieving Linear Speedup in Non-IID Federated Bilevel Learning [16.56643290676128]
我々はFedMBOという新しいフェデレーションバイレベルアルゴリズムを提案する。
We show that FedMBO achieve a convergence rate of $mathcalObig(frac1sqrtnK+frac1K+fracsqrtnK3/2big)$ on non-i.d.datasets。
これは、i.d.d.federated bilevel optimizationに対する最初の理論的線形スピードアップ結果である。
論文 参考訳(メタデータ) (2023-02-10T18:28:00Z) - MDPGT: Momentum-based Decentralized Policy Gradient Tracking [29.22173174168708]
マルチエージェント強化学習のための運動量に基づく分散型ポリシー勾配追跡(MDPGT)を提案する。
MDPGTは、グローバル平均の$N$ローカルパフォーマンス関数の$epsilon-stationaryポイントに収束するために$mathcalO(N-1epsilon-3)$の最良のサンプル複雑性を実現する。
これは、分散モデルレス強化学習における最先端のサンプル複雑さよりも優れています。
論文 参考訳(メタデータ) (2021-12-06T06:55:51Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Hierarchical Non-Stationary Temporal Gaussian Processes With
$L^1$-Regularization [11.408721072077604]
我々は、明示的に構築された非定常共分散関数と微分方程式に基づく2つのよく使われるNSGP構成を考える。
これらのNSGPは、スパース性を誘導するために、プロセスに$L1$-regularizationを含めることで拡張する。
結果の正規化NSGP(R-NSGP)回帰問題を解決するために,乗算器の交互方向法(ADMM)に基づく手法を開発した。
論文 参考訳(メタデータ) (2021-05-20T12:15:33Z) - Communication Efficient Distributed Learning with Censored, Quantized,
and Generalized Group ADMM [52.12831959365598]
本稿では,相互接続作業者のネットワーク上で定義されたコンセンサス最適化問題を解決するための,コミュニケーション効率のよい分散機械学習フレームワークを提案する。
提案アルゴリズムであるCensored and Quantized Generalized GADMMは、GADMM(Group Alternating Direction Method of Multipliers)の労働者グループ化と分散学習のアイデアを活用する。
CQ-GGADMMは通信ラウンド数で高い通信効率を示し、精度と収束速度を損なうことなくエネルギー消費を伝達する。
論文 参考訳(メタデータ) (2020-09-14T14:18:19Z) - Momentum Improves Normalized SGD [51.27183254738711]
モーメントを追加することで、目的に対する大きなバッチサイズの必要性を確実に排除できることを示す。
本稿では,ResNet-50 や BERT といった大規模タスクの事前学習において,提案手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-02-09T07:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。