論文の概要: Self-Clustering Hierarchical Multi-Agent Reinforcement Learning with Extensible Cooperation Graph
- arxiv url: http://arxiv.org/abs/2403.18056v1
- Date: Tue, 26 Mar 2024 19:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 21:14:58.238274
- Title: Self-Clustering Hierarchical Multi-Agent Reinforcement Learning with Extensible Cooperation Graph
- Title(参考訳): 拡張性協調グラフを用いた自己クラスタリング階層型マルチエージェント強化学習
- Authors: Qingxu Fu, Tenghai Qiu, Jianqiang Yi, Zhiqiang Pu, Xiaolin Ai,
- Abstract要約: 本稿では階層型協調グラフ学習(HCGL)と呼ばれる新しい階層型MARLモデルを提案する。
HCGLには3つのコンポーネントがある: 自己クラスタ化協調を実現する動的協調グラフ(ECG)、ECGのトポロジを調整するグラフ演算子のグループ、これらのグラフ演算子のトレーニングのためのMARL。
実験では, HCGLモデルは, スパース報酬を伴うマルチエージェントベンチマークにおいて, 優れた性能を示した。
- 参考スコア(独自算出の注目度): 9.303181273699417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Agent Reinforcement Learning (MARL) has been successful in solving many cooperative challenges. However, classic non-hierarchical MARL algorithms still cannot address various complex multi-agent problems that require hierarchical cooperative behaviors. The cooperative knowledge and policies learned in non-hierarchical algorithms are implicit and not interpretable, thereby restricting the integration of existing knowledge. This paper proposes a novel hierarchical MARL model called Hierarchical Cooperation Graph Learning (HCGL) for solving general multi-agent problems. HCGL has three components: a dynamic Extensible Cooperation Graph (ECG) for achieving self-clustering cooperation; a group of graph operators for adjusting the topology of ECG; and an MARL optimizer for training these graph operators. HCGL's key distinction from other MARL models is that the behaviors of agents are guided by the topology of ECG instead of policy neural networks. ECG is a three-layer graph consisting of an agent node layer, a cluster node layer, and a target node layer. To manipulate the ECG topology in response to changing environmental conditions, four graph operators are trained to adjust the edge connections of ECG dynamically. The hierarchical feature of ECG provides a unique approach to merge primitive actions (actions executed by the agents) and cooperative actions (actions executed by the clusters) into a unified action space, allowing us to integrate fundamental cooperative knowledge into an extensible interface. In our experiments, the HCGL model has shown outstanding performance in multi-agent benchmarks with sparse rewards. We also verify that HCGL can easily be transferred to large-scale scenarios with high zero-shot transfer success rates.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は多くの協調的課題の解決に成功している。
しかし、古典的非階層的MARLアルゴリズムは、階層的協調動作を必要とする様々な複雑なマルチエージェント問題にまだ対処できない。
非階層的アルゴリズムで学んだ協調的知識とポリシーは暗黙的であり、解釈できないため、既存の知識の統合が制限される。
本稿では,階層型協調グラフ学習(HCGL)と呼ばれる新しい階層型MARLモデルを提案する。
HCGLには3つのコンポーネントがある: 自己クラスタ化協調を実現する動的拡張協力グラフ(ECG)、ECGのトポロジを調整するグラフ演算子のグループ、これらのグラフ演算子を訓練するためのMARLオプティマイザ。
HCGLの他のMARLモデルとの大きな違いは、エージェントの挙動がポリシーニューラルネットワークの代わりにECGのトポロジーによって導かれることである。
ECGはエージェントノード層、クラスタノード層、ターゲットノード層からなる3層グラフである。
環境条件の変化に応じてECGトポロジを操作するため、4つのグラフ演算子をトレーニングし、ECGのエッジ接続を動的に調整する。
ECGの階層的特徴は、プリミティブアクション(エージェントによって実行されるアクション)と協調アクション(クラスタによって実行されるアクション)を統一されたアクション空間にマージするユニークなアプローチを提供し、基本的な協調的知識を拡張可能なインターフェースに統合することを可能にする。
実験では, HCGLモデルは, スパース報酬を伴うマルチエージェントベンチマークにおいて, 優れた性能を示した。
また、HCGLはゼロショット転送の成功率の高い大規模シナリオに容易に移行可能であることを検証する。
関連論文リスト
- Dynamic and Textual Graph Generation Via Large-Scale LLM-based Agent Simulation [70.60461609393779]
GraphAgent-Generator (GAG) は動的グラフ生成のための新しいシミュレーションベースのフレームワークである。
本フレームワークは,確立されたネットワーク科学理論において,7つのマクロレベルの構造特性を効果的に再現する。
最大10万近いノードと1000万のエッジを持つグラフの生成をサポートし、最低速度は90.4%である。
論文 参考訳(メタデータ) (2024-10-13T12:57:08Z) - Causality is all you need [63.10680366545293]
因果グラフルーティング(Causal Graph Routing, CGR)は、データに隠された原因影響力を明らかにするための介入機構を完全に依存した統合因果スキームである。
CGRは、Visual Question AnswerとLong Document Classificationタスクの両方において、最先端のメソッドを超越することができる。
論文 参考訳(メタデータ) (2023-11-21T02:53:40Z) - Generative and Contrastive Paradigms Are Complementary for Graph
Self-Supervised Learning [56.45977379288308]
Masked Autoencoder (MAE)は、マスク付きグラフエッジやノード機能の再構築を学ぶ。
Contrastive Learning (CL)は、同じグラフの拡張ビュー間の類似性を最大化する。
我々は,MAE と CL を統一するグラフコントラッシブマスク付きオートエンコーダ (GCMAE) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T05:06:06Z) - Non-Linear Coordination Graphs [22.29517436920317]
座標グラフ(CG)は、ペアのペイオフ関数を組み込んだ高次分解を表す。
CG値の分解を線形の場合を超えて拡張することにより、最初の非線形座標グラフを提案する。
提案手法は,MACOのようなマルチエージェント協調タスクにおいて,優れた性能を実現することができる。
論文 参考訳(メタデータ) (2022-10-26T18:11:31Z) - A Cooperation Graph Approach for Multiagent Sparse Reward Reinforcement
Learning [7.2972297703292135]
マルチエージェント強化学習(MARL)は複雑な協調作業を解くことができる。
本稿では、協調グラフ(CG)と呼ばれるグラフネットワークを設計する。
協調グラフマルチエージェント強化学習(CG-MARL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-05T06:32:16Z) - Graph Representation Learning via Contrasting Cluster Assignments [57.87743170674533]
GRCCAと呼ばれるクラスタ割り当てを対比して、教師なしグラフ表現モデルを提案する。
クラスタリングアルゴリズムとコントラスト学習を組み合わせることで、局所的およびグローバルな情報を合成的にうまく活用する動機付けがある。
GRCCAは、ほとんどのタスクにおいて強力な競争力を持っている。
論文 参考訳(メタデータ) (2021-12-15T07:28:58Z) - Deep Attention-guided Graph Clustering with Dual Self-supervision [49.040136530379094]
デュアル・セルフ・スーパービジョン(DAGC)を用いたディープアテンション誘導グラフクラスタリング法を提案する。
我々は,三重項Kulback-Leibler分散損失を持つソフトな自己スーパービジョン戦略と,擬似的な監督損失を持つハードな自己スーパービジョン戦略からなる二重自己スーパービジョンソリューションを開発する。
提案手法は6つのベンチマークデータセットにおける最先端の手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-10T06:53:03Z) - Soft Hierarchical Graph Recurrent Networks for Many-Agent Partially
Observable Environments [9.067091068256747]
本稿では,階層型グラフ再帰ネットワーク(HGRN)と呼ばれる新しいネットワーク構造を提案する。
以上の技術に基づいて,Soft-HGRNと呼ばれる値に基づくMADRLアルゴリズムと,SAC-HRGNというアクタクリティカルな変種を提案する。
論文 参考訳(メタデータ) (2021-09-05T09:51:25Z) - Cooperative Policy Learning with Pre-trained Heterogeneous Observation
Representations [51.8796674904734]
事前訓練された異種観察表現を用いた新たな協調学習フレームワークを提案する。
エンコーダ-デコーダに基づくグラフアテンションを用いて、複雑な相互作用と異種表現を学習する。
論文 参考訳(メタデータ) (2020-12-24T04:52:29Z) - Graph Convolutional Value Decomposition in Multi-Agent Reinforcement
Learning [9.774412108791218]
深層強化学習における値関数分解のための新しい枠組みを提案する。
特に、エージェントのチームは完全有向グラフのノードの集合であると考えている。
我々は,チーム状態-行動値関数を各エージェント毎の観察-行動値関数に分解する混合GNNモジュールを導入し,グローバルチーム報酬の分数で各エージェントに明示的なクレジット割り当てを行う。
論文 参考訳(メタデータ) (2020-10-09T18:01:01Z) - Deep Implicit Coordination Graphs for Multi-agent Reinforcement Learning [36.844163371495995]
本稿では,このようなシナリオに対するディープ暗黙協調グラフ(DICG)アーキテクチャを提案する。
DICGは、動的コーディネーショングラフ構造を推論するモジュールで構成されており、グラフニューラルネットワークベースのモジュールによって、ジョイントアクションや値について暗黙的に推論することを学ぶために使用される。
以上の結果から,DICGは捕食・捕食作業における相対的過一般化の問題を解消し,また,課題であるStarCraft II Multi-agent Challenge (SMAC) や交通ジャンクション環境において,様々なMARLベースラインを上回ります。
論文 参考訳(メタデータ) (2020-06-19T23:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。