Fugu-MT 論文翻訳(概要): The Gradient Convergence Bound of Federated Multi-Agent Reinforcement Learning with Efficient Communication

論文の概要: The Gradient Convergence Bound of Federated Multi-Agent Reinforcement Learning with Efficient Communication

arxiv url: http://arxiv.org/abs/2103.13026v2
Date: Mon, 29 May 2023 12:53:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 04:59:14.476039
Title: The Gradient Convergence Bound of Federated Multi-Agent Reinforcement Learning with Efficient Communication
Title（参考訳）: 効率的なコミュニケーションによる多エージェント強化学習の勾配収束境界
Authors: Xing Xu and Rongpeng Li and Zhifeng Zhao and Honggang Zhang
Abstract要約: 連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討 FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
参考スコア（独自算出の注目度）: 20.891460617583302
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The paper considers independent reinforcement learning (IRL) for multi-agent collaborative decision-making in the paradigm of federated learning (FL). However, FL generates excessive communication overheads between agents and a remote central server, especially when it involves a large number of agents or iterations. Besides, due to the heterogeneity of independent learning environments, multiple agents may undergo asynchronous Markov decision processes (MDPs), which will affect the training samples and the model's convergence performance. On top of the variation-aware periodic averaging (VPA) method and the policy-based deep reinforcement learning (DRL) algorithm (i.e., proximal policy optimization (PPO)), this paper proposes two advanced optimization schemes orienting to stochastic gradient descent (SGD): 1) A decay-based scheme gradually decays the weights of a model's local gradients with the progress of successive local updates, and 2) By representing the agents as a graph, a consensus-based scheme studies the impact of exchanging a model's local gradients among nearby agents from an algebraic connectivity perspective. This paper also provides novel convergence guarantees for both developed schemes, and demonstrates their superior effectiveness and efficiency in improving the system's utility value through theoretical analyses and simulation results.
Abstract（参考訳）: 本稿では,連合学習のパラダイムにおける多エージェント協調意思決定のための独立強化学習(IRL)について考察する。しかし、flはエージェントとリモート中央サーバの間の過度の通信オーバーヘッドを発生させる。さらに、独立した学習環境の不均一性のため、複数のエージェントが非同期マルコフ決定プロセス(MDP)を実行でき、トレーニングサンプルとモデルの収束性能に影響を与える。変動対応周期平均化(VPA)法とポリシーベース深部強化学習(DRL)法(PPO)法に加えて,確率勾配勾配(SGD)を指向した2つの高度な最適化手法を提案する。 1)減衰に基づくスキームは,連続的な局所更新の進行とともに,モデルの局所勾配の重みを徐々に減衰させる。 2) エージェントをグラフとして表現することにより、コンセンサスに基づくスキームは、近接エージェント間のモデルの局所勾配を代数的接続の観点から交換する影響を研究する。また,本論文は,両手法の新たな収束保証を提供し,理論解析とシミュレーション結果を通じて,システムの実用性向上に優れた効果と効率性を示す。

関連論文リスト

WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。 WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文参考訳（メタデータ） (2025-07-23T16:02:06Z)
A Two-Timescale Primal-Dual Framework for Reinforcement Learning via Online Dual Variable Guidance [3.4354636842203026]
正規化マルコフ決定過程(MDP)の解法としてPGDA-RLを提案する。 PGDA-RLは、経験的リプレイに基づく勾配推定と、基礎となるネスト最適化問題の2段階の分解を統合する。 PGDA-RL は正規化 MDP の最適値関数とポリシーにほぼ確実に収束することを示す。
論文参考訳（メタデータ） (2025-05-07T15:18:43Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Multi-agent Off-policy Actor-Critic Reinforcement Learning for Partially Observable Environments [30.280532078714455]
本研究では,強化学習のためのマルチエージェント・オフ・ポリティクス・アクター・クリティック・アルゴリズムにおいて,グローバルな状態を推定するソーシャル・ラーニング手法を提案する。社会的学習法により,世界状態が完全に観察された場合と推定された場合の最終的な結果の差が,社会的学習更新の適切な回数の反復を行う場合に,$varepsilon$-boundedとなることを示す。
論文参考訳（メタデータ） (2024-07-06T06:51:14Z)
Multi-Agent Reinforcement Learning-Based UAV Pathfinding for Obstacle Avoidance in Stochastic Environment [12.122881147337505]
マルチエージェント強化学習に基づく分散実行手法を用いた新しい集中型学習法を提案する。このアプローチでは、エージェントは集中型プランナーとのみ通信し、オンラインで分散的な決定を行う。訓練効率を高めるため,多段階強化学習において多段階値収束を行う。
論文参考訳（メタデータ） (2023-10-25T14:21:22Z)
Exact Subspace Diffusion for Decentralized Multitask Learning [17.592204922442832]
マルチタスク学習のための分散戦略は、よりニュアンスな方法でエージェント間の関係を誘導し、コンセンサスを強制せずにコラボレーションを促進する。本研究では,ネットワーク上の部分空間制約付きマルチタスク学習のための正確な拡散アルゴリズムの一般化を開発し,その平均二乗偏差の正確な式を導出する。予測された性能表現の精度を数値的に検証するとともに,近似予測に基づく代替案に対する提案手法の性能向上を検証した。
論文参考訳（メタデータ） (2023-04-14T19:42:19Z)
IPCC-TP: Utilizing Incremental Pearson Correlation Coefficient for Joint Multi-Agent Trajectory Prediction [73.25645602768158]
IPCC-TPはインクリメンタルピアソン相関係数に基づく新しい関連認識モジュールであり,マルチエージェントインタラクションモデリングを改善する。我々のモジュールは、既存のマルチエージェント予測手法に便利に組み込んで、元の動き分布デコーダを拡張することができる。
論文参考訳（メタデータ） (2023-03-01T15:16:56Z)
Towards Global Optimality in Cooperative MARL with the Transformation And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文参考訳（メタデータ） (2022-07-12T06:59:13Z)
Communication-Efficient Consensus Mechanism for Federated Reinforcement Learning [20.891460617583302]
FLは、トレーニング効率と安定性の観点から、IRLのポリシー性能を向上させることができることを示す。本稿では,モデル収束性能の向上と,必要な通信や計算オーバーヘッドの低減のバランスをとるために,システムユーティリティ関数を提案する。
論文参考訳（メタデータ） (2022-01-30T04:04:24Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文参考訳（メタデータ） (2020-04-17T14:56:29Z)
Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文参考訳（メタデータ） (2020-03-19T13:10:20Z)
Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文参考訳（メタデータ） (2020-02-20T15:00:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。