論文の概要: Learning Cooperation and Online Planning Through Simulation and Graph
Convolutional Network
- arxiv url: http://arxiv.org/abs/2110.08480v1
- Date: Sat, 16 Oct 2021 05:54:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 16:47:49.511568
- Title: Learning Cooperation and Online Planning Through Simulation and Graph
Convolutional Network
- Title(参考訳): シミュレーションとグラフ畳み込みネットワークによる学習協力とオンライン計画
- Authors: Rafid Ameer Mahmud, Fahim Faisal, Saaduddin Mahmud, Md. Mosaddek Khan
- Abstract要約: マルチエージェント協調環境のためのシミュレーションベースのオンライン計画アルゴリズム「SiCLOP」を導入する。
具体的には、SiCLOPはMCTS(Monte Carlo Tree Search)を補完し、協調学習にコーディネーショングラフ(CG)とグラフニューラルネットワーク(GCN)を使用する。
また、アクション空間を効果的に刈り取ることによりスケーラビリティも向上する。
- 参考スコア(独自算出の注目度): 5.505634045241288
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Multi-agent Markov Decision Process (MMDP) has been an effective way of
modelling sequential decision making algorithms for multi-agent cooperative
environments. A number of algorithms based on centralized and decentralized
planning have been developed in this domain. However, dynamically changing
environment, coupled with exponential size of the state and joint action space,
make it difficult for these algorithms to provide both efficiency and
scalability. Recently, Centralized planning algorithm FV-MCTS-MP and
decentralized planning algorithm \textit{Alternate maximization with
Behavioural Cloning} (ABC) have achieved notable performance in solving MMDPs.
However, they are not capable of adapting to dynamically changing environments
and accounting for the lack of communication among agents, respectively.
Against this background, we introduce a simulation based online planning
algorithm, that we call SiCLOP, for multi-agent cooperative environments.
Specifically, SiCLOP tailors Monte Carlo Tree Search (MCTS) and uses
Coordination Graph (CG) and Graph Neural Network (GCN) to learn cooperation and
provides real time solution of a MMDP problem. It also improves scalability
through an effective pruning of action space. Additionally, unlike FV-MCTS-MP
and ABC, SiCLOP supports transfer learning, which enables learned agents to
operate in different environments. We also provide theoretical discussion about
the convergence property of our algorithm within the context of multi-agent
settings. Finally, our extensive empirical results show that SiCLOP
significantly outperforms the state-of-the-art online planning algorithms.
- Abstract(参考訳): マルチエージェントマルコフ決定プロセス(MMDP)は,マルチエージェント協調環境における逐次決定アルゴリズムのモデル化に有効である。
集中型および分散型計画に基づく多くのアルゴリズムがこの領域で開発されている。
しかし、動的に変化する環境は、状態と共同動作空間の指数的なサイズと相まって、これらのアルゴリズムが効率とスケーラビリティの両方を提供するのが難しくなる。
近年,集中型計画アルゴリズム FV-MCTS-MP と分散型計画アルゴリズム \textit{Alternate maximization with Behavioural Cloning} (ABC) は,MMDP の解法において顕著な性能を発揮している。
しかし,動的に変化する環境に適応できず,エージェント間のコミュニケーションの欠如を考慮できない。
このような背景から,マルチエージェント協調環境のためのシミュレーションベースのオンライン計画アルゴリズム「SiCLOP」を導入する。
具体的には、SiCLOPはモンテカルロ木探索(MCTS)を補完し、コーディネーショングラフ(CG)とグラフニューラルネットワーク(GCN)を用いて協調学習を行い、MMDP問題のリアルタイム解を提供する。
また、アクション空間を効果的に刈り取ることによりスケーラビリティも向上する。
さらに、FV-MCTS-MPやABCとは異なり、SiCLOPはトランスファーラーニングをサポートし、学習エージェントが異なる環境で動作できるようにする。
また,マルチエージェント設定の文脈におけるアルゴリズムの収束性についても理論的に論じる。
最後に、我々の広範な実証結果から、SiCLOPは最先端のオンライン計画アルゴリズムよりも大幅に優れています。
関連論文リスト
- Intelligent Hybrid Resource Allocation in MEC-assisted RAN Slicing Network [72.2456220035229]
我々は,協調型MEC支援RANスライシングシステムにおける異種サービス要求に対するSSRの最大化を目指す。
最適ハイブリッドRAポリシーをインテリジェントに学習するためのRGRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-02T01:36:13Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Decentralized Federated Reinforcement Learning for User-Centric Dynamic
TFDD Control [37.54493447920386]
非対称かつ不均一なトラフィック要求を満たすための学習に基づく動的時間周波数分割二重化(D-TFDD)方式を提案する。
分散化された部分観測可能なマルコフ決定過程(Dec-POMDP)として問題を定式化する。
本稿では,グローバルリソースを分散的に最適化するために,Wolpertinger Deep Deterministic Policy gradient (FWDDPG)アルゴリズムという,連合強化学習(RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-04T07:39:21Z) - DESTRESS: Computation-Optimal and Communication-Efficient Decentralized
Nonconvex Finite-Sum Optimization [43.31016937305845]
インターネット・オブ・シング、ネットワークセンシング、自律システム、有限サム最適化のための分散アルゴリズムのためのフェデレーション学習。
非有限サム最適化のためのDecentralized STochastic Recursive MethodDESTRESSを開発した。
詳細な理論的および数値的な比較は、DESTRESSが事前の分散アルゴリズムにより改善されていることを示している。
論文 参考訳(メタデータ) (2021-10-04T03:17:41Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Scalable Anytime Planning for Multi-Agent MDPs [37.69939216970677]
動的協調を必要とする大規模マルチエージェント連続的決定問題に対するスケーラブルな木探索計画アルゴリズムを提案する。
提案アルゴリズムは,モンテカルロ木探索 (MCTS) を用いたオンライン計画,協調グラフを用いた局所エージェント相互作用の因子表現,および協調行動選択のための反復マックスプラス法からなる。
論文 参考訳(メタデータ) (2021-01-12T22:50:17Z) - Distributed Optimization, Averaging via ADMM, and Network Topology [0.0]
センサローカライゼーションの現実問題において,ネットワークトポロジと異なるアルゴリズムの収束率の関係について検討する。
また、ADMMと持ち上げマルコフ連鎖の間の興味深い関係を示すとともに、その収束を明示的に特徴づける。
論文 参考訳(メタデータ) (2020-09-05T21:44:39Z) - Deep Multi-Task Learning for Cooperative NOMA: System Design and
Principles [52.79089414630366]
我々は,近年のディープラーニング(DL)の進歩を反映した,新しいディープ・コラボレーティブなNOMAスキームを開発する。
我々は,システム全体を包括的に最適化できるように,新しいハイブリッドカスケードディープニューラルネットワーク(DNN)アーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-07-27T12:38:37Z) - Iterative Algorithm Induced Deep-Unfolding Neural Networks: Precoding
Design for Multiuser MIMO Systems [59.804810122136345]
本稿では,AIIDNN(ディープ・アンフォールディング・ニューラルネット)を一般化した,ディープ・アンフォールディングのためのフレームワークを提案する。
古典的重み付き最小二乗誤差(WMMSE)反復アルゴリズムの構造に基づく効率的なIAIDNNを提案する。
提案したIAIDNNは,計算複雑性を低減した反復WMMSEアルゴリズムの性能を効率よく向上することを示す。
論文 参考訳(メタデータ) (2020-06-15T02:57:57Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。