Fugu-MT 論文翻訳(概要): Reducing Variance Caused by Communication in Decentralized Multi-agent Deep Reinforcement Learning

論文の概要: Reducing Variance Caused by Communication in Decentralized Multi-agent Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2502.06261v1
Date: Mon, 10 Feb 2025 08:53:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:51.035625
Title: Reducing Variance Caused by Communication in Decentralized Multi-agent Deep Reinforcement Learning
Title（参考訳）: 分散型多エージェント深層強化学習におけるコミュニケーションによるばらつきの低減
Authors: Changxi Zhu, Mehdi Dastani, Shihan Wang,
Abstract要約: 政策グラデーションにおけるコミュニケーションによって引き起こされる分散について検討する。トレーニング中の方針勾配のばらつきを低減するためのモジュラー手法を提案する。その結果,提案手法により分散MADRL通信方式が拡張された。
参考スコア（独自算出の注目度）: 2.1461517065527445
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In decentralized multi-agent deep reinforcement learning (MADRL), communication can help agents to gain a better understanding of the environment to better coordinate their behaviors. Nevertheless, communication may involve uncertainty, which potentially introduces variance to the learning of decentralized agents. In this paper, we focus on a specific decentralized MADRL setting with communication and conduct a theoretical analysis to study the variance that is caused by communication in policy gradients. We propose modular techniques to reduce the variance in policy gradients during training. We adopt our modular techniques into two existing algorithms for decentralized MADRL with communication and evaluate them on multiple tasks in the StarCraft Multi-Agent Challenge and Traffic Junction domains. The results show that decentralized MADRL communication methods extended with our proposed techniques not only achieve high-performing agents but also reduce variance in policy gradients during training.
Abstract（参考訳）: 分散マルチエージェントディープ強化学習(MADRL)では、エージェントが環境をよりよく理解して行動を調整するのに役立つ。それでもコミュニケーションには不確実性があり、分散エージェントの学習にばらつきをもたらす可能性がある。本稿では,コミュニケーションを伴う特定の分散MADRL設定に焦点をあて,政策勾配におけるコミュニケーションに起因する分散について理論的解析を行う。トレーニング中の方針勾配のばらつきを低減するためのモジュラー手法を提案する。我々はモジュール方式を,通信を伴う分散MADRLのための既存の2つのアルゴリズムに導入し,StarCraft Multi-Agent ChallengeとTraffic Junctionドメインの複数のタスクでそれらを評価する。その結果,提案手法によって拡張された分散MADRL通信方式は,高性能エージェントを実現するだけでなく,トレーニング中の政策勾配のばらつきを低減できることがわかった。

関連論文リスト

Fully-Decentralized MADDPG with Networked Agents [0.5266869303483376]
我々はエージェント間のネットワーク通信アプローチを適用し,MADDPGアルゴリズムを適用した。我々は,訓練中の通信を可能とし,訓練を分散化するために代理政策を導入する。分散化アルゴリズムは、計算コストを削減しつつ、経験的テストにおいて元のMADDPGに匹敵する結果を得る。
論文参考訳（メタデータ） (2025-03-09T20:05:32Z)
Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文参考訳（メタデータ） (2024-04-04T06:24:11Z)
Imitation Learning based Alternative Multi-Agent Proximal Policy Optimization for Well-Formed Swarm-Oriented Pursuit Avoidance [15.498559530889839]
本稿では,分散学習に基づく代替的マルチエージェント・プロキシ・ポリシー最適化(IA-MAPPO)アルゴリズムを提案する。擬似学習を利用して生成コントローラを分散化し,通信オーバーヘッドを低減し,スケーラビリティを向上させる。シミュレーションの結果,IA-MAPPOの有効性が検証され,広範囲なアブレーション実験により,通信オーバーヘッドが著しく減少する集中型解に匹敵する性能が示された。
論文参考訳（メタデータ） (2023-11-06T06:58:16Z)
Multi-Agent Reinforcement Learning-Based UAV Pathfinding for Obstacle Avoidance in Stochastic Environment [12.122881147337505]
マルチエージェント強化学習に基づく分散実行手法を用いた新しい集中型学習法を提案する。このアプローチでは、エージェントは集中型プランナーとのみ通信し、オンラインで分散的な決定を行う。訓練効率を高めるため,多段階強化学習において多段階値収束を行う。
論文参考訳（メタデータ） (2023-10-25T14:21:22Z)
Collaborative Information Dissemination with Graph-based Multi-Agent Reinforcement Learning [2.9904113489777826]
本稿では,効率的な情報伝達のためのマルチエージェント強化学習(MARL)手法を提案する。本稿では,各エージェントが個別にメッセージ転送を決定するための情報発信のための部分観測可能なゲーム(POSG)を提案する。実験の結果,既存の手法よりも訓練済みの方針が優れていることがわかった。
論文参考訳（メタデータ） (2023-08-25T21:30:16Z)
Networked Communication for Decentralised Agents in Mean-Field Games [59.01527054553122]
平均フィールドゲームフレームワークにネットワーク通信を導入する。当社のアーキテクチャは、中央集権型と独立した学習ケースの双方で保証されていることを証明しています。
論文参考訳（メタデータ） (2023-06-05T10:45:39Z)
MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。分散ポリシと集中型コントローラの両方として機能する。実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2023-05-27T02:14:09Z)
Decentralized Learning over Wireless Networks: The Effect of Broadcast with Random Access [56.91063444859008]
本稿では,D-SGDのコンバージェンス性能に及ぼす放送送信と確率的ランダムアクセスポリシーの影響について検討する。この結果から,アクセス確率を最適化し,期待されるリンク数の最大化が,システム収束を加速するための極めて効果的な戦略であることが示唆された。
論文参考訳（メタデータ） (2023-05-12T10:32:26Z)
Network Slicing via Transfer Learning aided Distributed Deep Reinforcement Learning [7.126310378721161]
本稿では, セル間リソース分割のためのマルチエージェント間類似性解析を用いた多エージェント深部強化学習(MADRL)手法を提案する。提案手法は, 性能, 収束速度, サンプル効率の観点から, 最先端のソリューションよりも優れていることを示す。
論文参考訳（メタデータ） (2023-01-09T10:55:13Z)
Depthwise Convolution for Multi-Agent Communication with Enhanced Mean-Field Approximation [9.854975702211165]
本稿では,MARL(Multi-agent RL)課題に取り組むための,局所的なコミュニケーション学習に基づく新しい手法を提案する。まず,局所的な関係を効率的に抽出する深層的畳み込み機能を利用する新しい通信プロトコルを設計する。第2に,エージェント相互作用の規模を減らすために,平均場近似を導入する。
論文参考訳（メタデータ） (2022-03-06T07:42:43Z)
Decentralized Local Stochastic Extra-Gradient for Variational Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文参考訳（メタデータ） (2021-06-15T17:45:51Z)
Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文参考訳（メタデータ） (2020-10-06T16:51:09Z)
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文参考訳（メタデータ） (2020-04-17T14:56:29Z)
Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文参考訳（メタデータ） (2020-03-19T16:51:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。