論文の概要: Multi-Agent Deep Reinforcement Learning Under Constrained Communications
- arxiv url: http://arxiv.org/abs/2601.17069v1
- Date: Thu, 22 Jan 2026 21:07:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.116979
- Title: Multi-Agent Deep Reinforcement Learning Under Constrained Communications
- Title(参考訳): 制約通信によるマルチエージェント深層強化学習
- Authors: Shahil Shaik, Jonathon M. Smereka, Yue Wang,
- Abstract要約: 本稿では,集中型批判者やグローバル情報の必要性を解消する分散マルチエージェント強化学習(MARL)フレームワークを提案する。
マルチホップ通信によるグローバルな状態推論を行う新しいグラフ注意ネットワーク(D-GAT)を開発した。
また、エージェントがローカルポリシーや値関数を最適化する分散MARLフレームワークである分散グラフアテンションMAPPO(DG-MAPPO)を開発した。
- 参考スコア(独自算出の注目度): 2.7126292487109005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Centralized training with decentralized execution (CTDE) has been the dominant paradigm in multi-agent reinforcement learning (MARL), but its reliance on global state information during training introduces scalability, robustness, and generalization bottlenecks. Moreover, in practical scenarios such as adding/dropping teammates or facing environment dynamics that differ from the training, CTDE methods can be brittle and costly to retrain, whereas distributed approaches allow agents to adapt using only local information and peer-to-peer communication. We present a distributed MARL framework that removes the need for centralized critics or global information. Firstly, we develop a novel Distributed Graph Attention Network (D-GAT) that performs global state inference through multi-hop communication, where agents integrate neighbor features via input-dependent attention weights in a fully distributed manner. Leveraging D-GAT, we develop the distributed graph-attention MAPPO (DG-MAPPO) -- a distributed MARL framework where agents optimize local policies and value functions using local observations, multi-hop communication, and shared/averaged rewards. Empirical evaluation on the StarCraftII Multi-Agent Challenge, Google Research Football, and Multi-Agent Mujoco demonstrates that our method consistently outperforms strong CTDE baselines, achieving superior coordination across a wide range of cooperative tasks with both homogeneous and heterogeneous teams. Our distributed MARL framework provides a principled and scalable solution for robust collaboration, eliminating the need for centralized training or global observability. To the best of our knowledge, DG-MAPPO appears to be the first to fully eliminate reliance on privileged centralized information, enabling agents to learn and act solely through peer-to-peer communication.
- Abstract(参考訳): 分散実行(CTDE)による集中トレーニングはマルチエージェント強化学習(MARL)において支配的なパラダイムとなっているが、トレーニング中のグローバル状態情報への依存はスケーラビリティ、堅牢性、一般化ボトルネックをもたらす。
さらに、トレーニングと異なるチームメイトの追加/ドロップや対面する環境ダイナミクスといった実践的なシナリオでは、CTDEメソッドは脆く、再トレーニングにコストがかかります。
本稿では,中央集権的批評家やグローバル情報の必要性を解消する分散MARLフレームワークを提案する。
まず,マルチホップ通信によりグローバルな状態推定を行う分散グラフ注意ネットワーク(D-GAT)を開発し,エージェントが入力依存の注意重みによって近隣の機能を完全に分散的に統合する。
D-GATを活用した分散グラフアテンションMAPPO(DG-MAPPO)は、エージェントがローカルな観測、マルチホップ通信、共有/平均報酬を用いてローカルなポリシーと値関数を最適化する分散MARLフレームワークである。
StarCraftII Multi-Agent Challenge、Google Research Football、およびMulti-Agent Mujocoにおける実証的な評価は、我々の手法が強いCTDEベースラインを一貫して上回り、同種チームと異種チームの両方で広範囲の協調作業において優れたコーディネートを実現していることを示している。
私たちの分散MARLフレームワークは、集中的なトレーニングやグローバルな可観測性を必要としない、堅牢なコラボレーションのための原則付きかつスケーラブルなソリューションを提供します。
我々の知る限りでは、DG-MAPPOは特権集中型情報への依存を完全に排除し、エージェントはピアツーピア通信のみで学習し、行動することができる。
関連論文リスト
- Learning to Interact in World Latent for Team Coordination [53.51290193631586]
本研究は,多エージェント強化学習(MARL)におけるチーム協調を支援するために,対話型ワールドラテント(IWoL)という新しい表現学習フレームワークを提案する。
コミュニケーションプロトコルを直接モデル化することにより,エージェント間関係とタスク固有の世界情報とを協調的にキャプチャする学習可能な表現空間を構築する。
私たちの表現は、各エージェントの暗黙のラテントとしてだけでなく、コミュニケーションのための明示的なメッセージとしても使用できます。
論文 参考訳(メタデータ) (2025-09-29T22:13:39Z) - Collaborative Information Dissemination with Graph-based Multi-Agent
Reinforcement Learning [2.9904113489777826]
本稿では,効率的な情報伝達のためのマルチエージェント強化学習(MARL)手法を提案する。
本稿では,各エージェントが個別にメッセージ転送を決定するための情報発信のための部分観測可能なゲーム(POSG)を提案する。
実験の結果,既存の手法よりも訓練済みの方針が優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-25T21:30:16Z) - Is Centralized Training with Decentralized Execution Framework Centralized Enough for MARL? [34.00244359590573]
分散実行によるトレーニングは、協調的マルチエージェント強化学習のための一般的なフレームワークである。
マルチエージェント強化学習のためのCADP(Advising and Decentralized Pruning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-27T03:15:24Z) - Scalable Multi-Agent Model-Based Reinforcement Learning [1.95804735329484]
我々は,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。
エージェント間のコミュニケーションは、実行期間中に各エージェントのワールドモデルを維持するのに十分であり、一方、仮想ロールアウトはトレーニングに使用でき、環境と対話する必要がなくなる。
論文 参考訳(メタデータ) (2022-05-25T08:35:00Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。