論文の概要: Graph Convolutional Value Decomposition in Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2010.04740v2
- Date: Wed, 10 Feb 2021 07:33:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 06:24:20.960622
- Title: Graph Convolutional Value Decomposition in Multi-Agent Reinforcement
Learning
- Title(参考訳): マルチエージェント強化学習におけるグラフ畳み込み値分解
- Authors: Navid Naderializadeh, Fan H. Hung, Sean Soleyman, Deepak Khosla
- Abstract要約: 深層強化学習における値関数分解のための新しい枠組みを提案する。
特に、エージェントのチームは完全有向グラフのノードの集合であると考えている。
我々は,チーム状態-行動値関数を各エージェント毎の観察-行動値関数に分解する混合GNNモジュールを導入し,グローバルチーム報酬の分数で各エージェントに明示的なクレジット割り当てを行う。
- 参考スコア(独自算出の注目度): 9.774412108791218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel framework for value function factorization in multi-agent
deep reinforcement learning (MARL) using graph neural networks (GNNs). In
particular, we consider the team of agents as the set of nodes of a complete
directed graph, whose edge weights are governed by an attention mechanism.
Building upon this underlying graph, we introduce a mixing GNN module, which is
responsible for i) factorizing the team state-action value function into
individual per-agent observation-action value functions, and ii) explicit
credit assignment to each agent in terms of fractions of the global team
reward. Our approach, which we call GraphMIX, follows the centralized training
and decentralized execution paradigm, enabling the agents to make their
decisions independently once training is completed. We show the superiority of
GraphMIX as compared to the state-of-the-art on several scenarios in the
StarCraft II multi-agent challenge (SMAC) benchmark. We further demonstrate how
GraphMIX can be used in conjunction with a recent hierarchical MARL
architecture to both improve the agents' performance and enable fine-tuning
them on mismatched test scenarios with higher numbers of agents and/or actions.
- Abstract(参考訳): グラフニューラルネットワーク(GNN)を用いたマルチエージェント深部強化学習(MARL)における値関数分解のための新しいフレームワークを提案する。
特に、エージェントのチームは、エッジウェイトが注意機構によって支配される完全有向グラフのノードの集合であると考えている。
この基盤となるグラフに基づいて、我々は混合GNNモジュールを導入します。
一 チーム状態-行動値関数を個々の観察-行動値関数に分解し、
二 グローバルチームの報酬の分数において、各エージェントに対する明示的なクレジットの割り当て
GraphMIXと呼ばれる私たちのアプローチは、集中的なトレーニングと分散実行パラダイムに従っており、トレーニングが完了するとエージェントが独立して決定を下すことができます。
本稿では,SMAC(StarCraft II multi-agent Challenge)ベンチマークのいくつかのシナリオにおける最先端技術と比較して,GraphMIXの優位性を示す。
さらに我々は,GraphMIXを最近の階層的MARLアーキテクチャと組み合わせて,エージェントの性能向上と,エージェント数やアクション数の増加によるミスマッチテストシナリオの微調整を可能にすることを実証する。
関連論文リスト
- Hi-GMAE: Hierarchical Graph Masked Autoencoders [90.30572554544385]
階層型グラフマスク付きオートエンコーダ(Hi-GMAE)
Hi-GMAEは、グラフ内の階層構造を扱うために設計された、新しいマルチスケールGMAEフレームワークである。
15のグラフデータセットに対する実験は、Hi-GMAEが17の最先端の自己管理競合より優れていることを一貫して示している。
論文 参考訳(メタデータ) (2024-05-17T09:08:37Z) - Mastering Complex Coordination through Attention-based Dynamic Graph [14.855793715829954]
グラフに基づく新しい値分解法であるDAGmixを提案する。
完全なグラフの代わりに、DAGmixはトレーニング中の各タイムステップで動的グラフを生成する。
実験の結果,DAGmixは大規模シナリオにおいて従来のSOTA法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-12-07T12:02:14Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Partially Observable Mean Field Multi-Agent Reinforcement Learning Based on Graph-Attention [12.588866091856309]
本稿では、各エージェントが一定の範囲内で他のエージェントを観察できる部分観測可能マルチエージェント強化学習(MARL)について考察する。
グラフ認識(GAMFQ)に基づく部分観測可能な平均場多エージェント強化学習法を提案する。
実験により、GAMFQは最先端の部分的に観測可能な平均場強化学習アルゴリズムを含むベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-04-25T08:38:32Z) - A Cooperation Graph Approach for Multiagent Sparse Reward Reinforcement
Learning [7.2972297703292135]
マルチエージェント強化学習(MARL)は複雑な協調作業を解くことができる。
本稿では、協調グラフ(CG)と呼ばれるグラフネットワークを設計する。
協調グラフマルチエージェント強化学習(CG-MARL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-05T06:32:16Z) - MGAE: Masked Autoencoders for Self-Supervised Learning on Graphs [55.66953093401889]
Masked Graph Autoencoder (MGAE) フレームワークは、グラフ構造データの効果的な学習を行う。
自己指導型学習から洞察を得て、私たちはランダムに大量のエッジを隠蔽し、トレーニング中に欠落したエッジを再構築しようとします。
論文 参考訳(メタデータ) (2022-01-07T16:48:07Z) - Value Function Factorisation with Hypergraph Convolution for Cooperative
Multi-agent Reinforcement Learning [32.768661516953344]
本稿では,ハイパーグラフ畳み込みと値分解を組み合わせた手法を提案する。
アクション値を信号として扱うことで、HGCN-Mixは、自己学習ハイパーグラフを通じて、これらの信号間の関係を探究することを目指している。
実験結果から,HGCN-MixはStarCraft II Multi-agent Challenge (SMAC)ベンチマークにおいて,最先端技術と一致するか,あるいは超えていることがわかった。
論文 参考訳(メタデータ) (2021-12-09T08:40:38Z) - Learning to Coordinate via Multiple Graph Neural Networks [16.226702761758595]
MGANはグラフ畳み込みネットワークと値分解手法を組み合わせた新しいアルゴリズムである。
グラフネットワークの出力を可視化することにより,表現学習におけるグラフネットワークの驚くべき能力を示す。
論文 参考訳(メタデータ) (2021-04-08T04:33:00Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Jointly Cross- and Self-Modal Graph Attention Network for Query-Based
Moment Localization [77.21951145754065]
本稿では,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ注意ネットワーク(CSMGAN)を提案する。
CSMGANは2つのモード間の高次相互作用を効果的に捉えることができ、より正確な局所化を可能にします。
論文 参考訳(メタデータ) (2020-08-04T08:25:24Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。