論文の概要: The Gradient Convergence Bound of Federated Multi-Agent Reinforcement
Learning with Efficient Communication
- arxiv url: http://arxiv.org/abs/2103.13026v1
- Date: Wed, 24 Mar 2021 07:21:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:10:01.826929
- Title: The Gradient Convergence Bound of Federated Multi-Agent Reinforcement
Learning with Efficient Communication
- Title(参考訳): 効率的なコミュニケーションによる多エージェント強化学習の勾配収束境界
- Authors: Xing Xu and Rongpeng Li and Zhifeng Zhao and Honggang Zhang
- Abstract要約: 本稿では,変動認識周期平均法に基づく2つの最適化手法を提案する。
理論解析と数値シミュレーション結果により、その効果と効率を実証します。
- 参考スコア(独自算出の注目度): 18.871027405710013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paper considers a distributed version of deep reinforcement learning
(DRL) for multi-agent decision-making process in the paradigm of federated
learning. Since the deep neural network models in federated learning are
trained locally and aggregated iteratively through a central server, frequent
information exchange incurs a large amount of communication overheads. Besides,
due to the heterogeneity of agents, Markov state transition trajectories from
different agents are usually unsynchronized within the same time interval,
which will further influence the convergence bound of the aggregated deep
neural network models. Therefore, it is of vital importance to reasonably
evaluate the effectiveness of different optimization methods. Accordingly, this
paper proposes a utility function to consider the balance between reducing
communication overheads and improving convergence performance. Meanwhile, this
paper develops two new optimization methods on top of variation-aware periodic
averaging methods: 1) the decay-based method which gradually decreases the
weight of the model's local gradients within the progress of local updating,
and 2) the consensus-based method which introduces the consensus algorithm into
federated learning for the exchange of the model's local gradients. This paper
also provides novel convergence guarantees for both developed methods and
demonstrates their effectiveness and efficiency through theoretical analysis
and numerical simulation results.
- Abstract(参考訳): 本稿では,多エージェント意思決定プロセスのための深層強化学習(DRL)の分散バージョンを,連合学習のパラダイムとして検討する。
連合学習における深層ニューラルネットワークモデルは、中央サーバを通じて局所的に訓練され、反復的に集約されるため、頻繁な情報交換は大量の通信オーバーヘッドを引き起こす。
さらに、エージェントの不均一性のため、異なるエージェントからのマルコフ状態遷移軌跡は、通常同じ時間間隔で非同期化され、集約されたディープニューラルネットワークモデルの収束境界にさらに影響を及ぼす。
したがって、異なる最適化手法の有効性を合理的に評価することが重要である。
そこで本稿では,通信オーバーヘッドの低減と収束性能の向上のバランスを検討するユーティリティ関数を提案する。
本稿では, 局所的更新の進行過程において, モデル局所勾配の重みを徐々に減少させる減衰法と, モデル局所勾配の交換のためのフェデレート学習にコンセンサスアルゴリズムを導入するコンセンサスに基づく手法の2つの新しい最適化手法を提案する。
また, 両手法の新たな収束保証を提供し, 理論解析と数値シミュレーションの結果を通じて, その有効性と効率を実証する。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Multi-agent Off-policy Actor-Critic Reinforcement Learning for Partially Observable Environments [30.280532078714455]
本研究では,強化学習のためのマルチエージェント・オフ・ポリティクス・アクター・クリティック・アルゴリズムにおいて,グローバルな状態を推定するソーシャル・ラーニング手法を提案する。
社会的学習法により,世界状態が完全に観察された場合と推定された場合の最終的な結果の差が,社会的学習更新の適切な回数の反復を行う場合に,$varepsilon$-boundedとなることを示す。
論文 参考訳(メタデータ) (2024-07-06T06:51:14Z) - Multi-Agent Reinforcement Learning-Based UAV Pathfinding for Obstacle Avoidance in Stochastic Environment [12.122881147337505]
マルチエージェント強化学習に基づく分散実行手法を用いた新しい集中型学習法を提案する。
このアプローチでは、エージェントは集中型プランナーとのみ通信し、オンラインで分散的な決定を行う。
訓練効率を高めるため,多段階強化学習において多段階値収束を行う。
論文 参考訳(メタデータ) (2023-10-25T14:21:22Z) - Exact Subspace Diffusion for Decentralized Multitask Learning [17.592204922442832]
マルチタスク学習のための分散戦略は、よりニュアンスな方法でエージェント間の関係を誘導し、コンセンサスを強制せずにコラボレーションを促進する。
本研究では,ネットワーク上の部分空間制約付きマルチタスク学習のための正確な拡散アルゴリズムの一般化を開発し,その平均二乗偏差の正確な式を導出する。
予測された性能表現の精度を数値的に検証するとともに,近似予測に基づく代替案に対する提案手法の性能向上を検証した。
論文 参考訳(メタデータ) (2023-04-14T19:42:19Z) - IPCC-TP: Utilizing Incremental Pearson Correlation Coefficient for Joint
Multi-Agent Trajectory Prediction [73.25645602768158]
IPCC-TPはインクリメンタルピアソン相関係数に基づく新しい関連認識モジュールであり,マルチエージェントインタラクションモデリングを改善する。
我々のモジュールは、既存のマルチエージェント予測手法に便利に組み込んで、元の動き分布デコーダを拡張することができる。
論文 参考訳(メタデータ) (2023-03-01T15:16:56Z) - Towards Global Optimality in Cooperative MARL with the Transformation
And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である
本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。
我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-07-12T06:59:13Z) - Communication-Efficient Consensus Mechanism for Federated Reinforcement
Learning [20.891460617583302]
FLは、トレーニング効率と安定性の観点から、IRLのポリシー性能を向上させることができることを示す。
本稿では,モデル収束性能の向上と,必要な通信や計算オーバーヘッドの低減のバランスをとるために,システムユーティリティ関数を提案する。
論文 参考訳(メタデータ) (2022-01-30T04:04:24Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。