Fugu-MT 論文翻訳(概要): Improved Communication Efficiency in Federated Natural Policy Gradient via ADMM-based Gradient Updates

論文の概要: Improved Communication Efficiency in Federated Natural Policy Gradient via ADMM-based Gradient Updates

arxiv url: http://arxiv.org/abs/2310.19807v1
Date: Mon, 9 Oct 2023 16:48:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-05 13:43:06.395857
Title: Improved Communication Efficiency in Federated Natural Policy Gradient via ADMM-based Gradient Updates
Title（参考訳）: ADMMによる自然政策グラディエントにおけるコミュニケーション効率の向上
Authors: Guangchen Lan, Han Wang, James Anderson, Christopher Brinton, Vaneet Aggarwal
Abstract要約: フェデレート強化学習(FedRL)は、エージェントが個々のデータを共有することなく、グローバルなポリシーを協調的に訓練することを可能にする。我々は,乗算器の交互方向法を利用してグローバルNPG方向を効率的に近似するFedNPG-ADMMフレームワークを提案する。我々は、FedNPG-ADMMが標準FedNPGの報酬性能を維持しており、その収束率は、フェデレートエージェントの数が増えると改善することを示した。
参考スコア（独自算出の注目度）: 30.79390892386221
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Federated reinforcement learning (FedRL) enables agents to collaboratively train a global policy without sharing their individual data. However, high communication overhead remains a critical bottleneck, particularly for natural policy gradient (NPG) methods, which are second-order. To address this issue, we propose the FedNPG-ADMM framework, which leverages the alternating direction method of multipliers (ADMM) to approximate global NPG directions efficiently. We theoretically demonstrate that using ADMM-based gradient updates reduces communication complexity from ${O}({d^{2}})$ to ${O}({d})$ at each iteration, where $d$ is the number of model parameters. Furthermore, we show that achieving an $\epsilon$-error stationary convergence requires ${O}(\frac{1}{(1-\gamma)^{2}{\epsilon}})$ iterations for discount factor $\gamma$, demonstrating that FedNPG-ADMM maintains the same convergence rate as the standard FedNPG. Through evaluation of the proposed algorithms in MuJoCo environments, we demonstrate that FedNPG-ADMM maintains the reward performance of standard FedNPG, and that its convergence rate improves when the number of federated agents increases.
Abstract（参考訳）: フェデレート強化学習(FedRL)は、エージェントが個々のデータを共有することなく、グローバルなポリシーを協調的に訓練することを可能にする。しかし、特に2次の自然政策勾配法(NPG)では、高い通信オーバーヘッドが重大なボトルネックとなっている。本稿では,乗算器の交互方向法(ADMM)を利用してグローバルNPG方向を効率的に近似するFedNPG-ADMMフレームワークを提案する。理論的には、ADMMに基づく勾配更新を使用することで、各イテレーションにおいて${O}({d^{2}})$から${O}({d})$に通信複雑性が減少する。さらに、$\epsilon$-error定常収束を達成するには、${o}(\frac{1}{(1-\gamma)^{2}{\epsilon}})$のディスカウント係数$\gamma$の反復が必要であり、fednpg-admmが標準のfednpgと同じ収束率を維持していることを示している。提案したアルゴリズムを MuJoCo 環境で評価することにより,FedNPG-ADMM が標準FedNPG の報酬性能を維持し,フェデレートエージェントの数が増えると収束率が向上することを示した。

関連論文リスト

On Global Convergence Rates for Federated Policy Gradient under Heterogeneous Environment [14.366821866598803]
本稿では、ソフトマックスに着想を得たパラメータ化を慎重に構築したポリシー勾配法であるb-RS-FedPGを紹介する。我々は, b-RS-FedPG のほぼ最適定常政策への明確な収束率を示す。
論文参考訳（メタデータ） (2025-05-29T14:08:35Z)
Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。非滑らかな正規化はしばしば機械学習タスクに組み込まれる。本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T08:32:25Z)
Towards Fast Rates for Federated and Multi-Task Reinforcement Learning [34.34798425737858]
我々は、慎重に設計されたバイアス補正機構を備えた新しいフェデレーションポリシーアルゴリズムであるFast-FedPGを提案する。勾配支配条件下では,本アルゴリズムは (i) 厳密な勾配で高速な線形収束を保証し, (ii) 雑音に富んだ政策勾配を持つエージェントの数に比例して線形スピードアップを楽しむサブ線形速度を保証している。
論文参考訳（メタデータ） (2024-09-09T02:59:17Z)
Sample-Efficient Constrained Reinforcement Learning with General Parameterization [35.22742439337603]
エージェントの目標は、無限の地平線上で期待される割引報酬の和を最大化することである。我々は,世界最適性ギャップを$epsilon$で保証し,制約違反を$epsilon$で保証するPrimal-Dual Accelerated Natural Policy Gradient (PD-ANPG)アルゴリズムを開発した。
論文参考訳（メタデータ） (2024-05-17T08:39:05Z)
Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation [53.17668583030862]
一般関数近似の文脈において,無限水平平均逆マルコフ決定過程(AMDP)について検討する。最適化最適化(LOOP)と呼ばれる新しいアルゴリズムフレームワークを提案する。我々は LOOP がサブ線形 $tildemathcalO(mathrmpoly(d, mathrmsp(V*)) sqrtTbeta )$ regret を達成することを示す。
論文参考訳（メタデータ） (2024-04-19T06:24:22Z)
Asynchronous Federated Reinforcement Learning with Policy Gradient Updates: Algorithm Design and Convergence Analysis [41.75366066380951]
N$エージェント間の協調によりグローバルモデルを構築する非同期強化学習フレームワークAFedPGを提案する。我々は, AFedPGの理論的大域収束境界を解析し, サンプル複雑性と時間複雑性の両方の観点から, 提案アルゴリズムの利点を特徴づける。我々は,多種多様なエージェントを持つ4つの広く使用されている MuJoCo 環境における AFedPG の性能改善を実証的に検証した。
論文参考訳（メタデータ） (2024-04-09T04:21:13Z)
Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文参考訳（メタデータ） (2023-10-21T18:38:13Z)
DFedADMM: Dual Constraints Controlled Model Inconsistency for Decentralized Federated Learning [52.83811558753284]
分散学習(DFL)は、中央サーバーを捨て、分散通信ネットワークを確立する。既存のDFL手法は依然として、局所的な矛盾と局所的な過度なオーバーフィッティングという2つの大きな課題に悩まされている。
論文参考訳（メタデータ） (2023-08-16T11:22:36Z)
MDPGT: Momentum-based Decentralized Policy Gradient Tracking [29.22173174168708]
マルチエージェント強化学習のための運動量に基づく分散型ポリシー勾配追跡(MDPGT)を提案する。 MDPGTは、グローバル平均の$N$ローカルパフォーマンス関数の$epsilon-stationaryポイントに収束するために$mathcalO(N-1epsilon-3)$の最良のサンプル複雑性を実現する。これは、分散モデルレス強化学習における最先端のサンプル複雑さよりも優れています。
論文参考訳（メタデータ） (2021-12-06T06:55:51Z)
Near-Optimal No-Regret Learning for Correlated Equilibria in Multi-Player General-Sum Games [104.74734408204749]
マルチプレイヤーの汎用正規形式ゲームにおいて,OMWU(Optimistic Multiplicative Weights Update)を用いているエージェントが全員,O(textrmpolylog(T))$(T$)$(T$)$(OMWU)$(OMWU)$(OMWU)$(OMWU)$(OMWU)$)であることを示す。外部の後悔から内部の後悔へと結果を拡張し、後悔を交換することで、近似した平衡に収束する非結合学習ダイナミクスを確立する。
論文参考訳（メタデータ） (2021-11-11T01:19:53Z)
Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文参考訳（メタデータ） (2021-06-30T16:49:07Z)
Communication Efficient Distributed Learning with Censored, Quantized, and Generalized Group ADMM [52.12831959365598]
本稿では,相互接続作業者のネットワーク上で定義されたコンセンサス最適化問題を解決するための,コミュニケーション効率のよい分散機械学習フレームワークを提案する。提案アルゴリズムであるCensored and Quantized Generalized GADMMは、GADMM(Group Alternating Direction Method of Multipliers)の労働者グループ化と分散学習のアイデアを活用する。 CQ-GGADMMは通信ラウンド数で高い通信効率を示し、精度と収束速度を損なうことなくエネルギー消費を伝達する。
論文参考訳（メタデータ） (2020-09-14T14:18:19Z)
Momentum Improves Normalized SGD [51.27183254738711]
モーメントを追加することで、目的に対する大きなバッチサイズの必要性を確実に排除できることを示す。本稿では,ResNet-50 や BERT といった大規模タスクの事前学習において,提案手法が有効であることを示す。
論文参考訳（メタデータ） (2020-02-09T07:00:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。