論文の概要: Decentralized MCTS via Learned Teammate Models
- arxiv url: http://arxiv.org/abs/2003.08727v3
- Date: Tue, 10 Nov 2020 18:42:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 04:14:41.216422
- Title: Decentralized MCTS via Learned Teammate Models
- Title(参考訳): 学習チームメイトモデルによる分散MCTS
- Authors: Aleksander Czechowski, Frans A. Oliehoek
- Abstract要約: 本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
- 参考スコア(独自算出の注目度): 89.24858306636816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decentralized online planning can be an attractive paradigm for cooperative
multi-agent systems, due to improved scalability and robustness. A key
difficulty of such approach lies in making accurate predictions about the
decisions of other agents. In this paper, we present a trainable online
decentralized planning algorithm based on decentralized Monte Carlo Tree
Search, combined with models of teammates learned from previous episodic runs.
By only allowing one agent to adapt its models at a time, under the assumption
of ideal policy approximation, successive iterations of our method are
guaranteed to improve joint policies, and eventually lead to convergence to a
Nash equilibrium. We test the efficiency of the algorithm by performing
experiments in several scenarios of the spatial task allocation environment
introduced in [Claes et al., 2015]. We show that deep learning and
convolutional neural networks can be employed to produce accurate policy
approximators which exploit the spatial features of the problem, and that the
proposed algorithm improves over the baseline planning performance for
particularly challenging domain configurations.
- Abstract(参考訳): 分散オンラインプランニングは、スケーラビリティと堅牢性の改善により、協調型マルチエージェントシステムにとって魅力的なパラダイムになり得る。
このアプローチの重要な難しさは、他のエージェントの判断を正確に予測することにある。
本稿では,分散モンテカルロ木探索に基づく学習可能なオンライン分散計画アルゴリズムを提案する。
1つのエージェントが一度にモデルに適応できるようにすることで、理想的なポリシー近似の仮定の下で、この手法の連続的な反復はジョイントポリシーを改善することが保証され、最終的にはnash平衡に収束する。
我々は,[claes et al., 2015]で導入された空間的タスク割り当て環境のいくつかのシナリオで実験を行い,アルゴリズムの効率性をテストする。
深層学習と畳み込みニューラルネットワークを用いて、問題の空間的特徴を利用する正確なポリシー近似器を作成できることを示し、提案アルゴリズムは、特に困難なドメイン構成において、ベースライン計画性能よりも改善されていることを示す。
関連論文リスト
- Performance-Aware Self-Configurable Multi-Agent Networks: A Distributed Submodular Approach for Simultaneous Coordination and Network Design [3.5527561584422465]
本稿では、AlterNAting Coordination and Network-Design Algorithm(Anaconda)を紹介する。
Anacondaはスケーラブルなアルゴリズムで、ほぼ最適性を保証する。
地域モニタリングのシミュレーションシナリオを実演し,それを最先端のアルゴリズムと比較する。
論文 参考訳(メタデータ) (2024-09-02T18:11:33Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Multi-Agent Reinforcement Learning-Based UAV Pathfinding for Obstacle Avoidance in Stochastic Environment [12.122881147337505]
マルチエージェント強化学習に基づく分散実行手法を用いた新しい集中型学習法を提案する。
このアプローチでは、エージェントは集中型プランナーとのみ通信し、オンラインで分散的な決定を行う。
訓練効率を高めるため,多段階強化学習において多段階値収束を行う。
論文 参考訳(メタデータ) (2023-10-25T14:21:22Z) - Distributed Bayesian Learning of Dynamic States [65.7870637855531]
提案アルゴリズムは有限状態隠れマルコフモデルに対する分散ベイズフィルタタスクである。
逐次状態推定や、動的環境下でのソーシャルネットワーク上での意見形成のモデル化に使用できる。
論文 参考訳(メタデータ) (2022-12-05T19:40:17Z) - On the Convergence of Distributed Stochastic Bilevel Optimization
Algorithms over a Network [55.56019538079826]
バイレベル最適化は、幅広い機械学習モデルに適用されている。
既存のアルゴリズムの多くは、分散データを扱うことができないように、シングルマシンの設定を制限している。
そこで我々は,勾配追跡通信機構と2つの異なる勾配に基づく分散二段階最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-30T05:29:52Z) - Fully Decentralized, Scalable Gaussian Processes for Multi-Agent
Federated Learning [14.353574903736343]
マルチエージェントシステムにおけるGPトレーニングと予測のための分散およびスケーラブルなアルゴリズムを提案する。
提案手法の有効性を,合成および実データに関する数値実験で示す。
論文 参考訳(メタデータ) (2022-03-06T02:54:13Z) - Learning Cooperation and Online Planning Through Simulation and Graph
Convolutional Network [5.505634045241288]
マルチエージェント協調環境のためのシミュレーションベースのオンライン計画アルゴリズム「SiCLOP」を導入する。
具体的には、SiCLOPはMCTS(Monte Carlo Tree Search)を補完し、協調学習にコーディネーショングラフ(CG)とグラフニューラルネットワーク(GCN)を使用する。
また、アクション空間を効果的に刈り取ることによりスケーラビリティも向上する。
論文 参考訳(メタデータ) (2021-10-16T05:54:32Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Decentralized Deep Learning using Momentum-Accelerated Consensus [15.333413663982874]
複数のエージェントが協調して分散データセットから学習する分散ディープラーニングの問題を考える。
本稿では,エージェントが固定された通信トポロジ上で対話する分散ディープラーニングアルゴリズムを提案し,解析する。
本アルゴリズムは,勾配に基づくプロトコルで用いられるヘビーボール加速度法に基づく。
論文 参考訳(メタデータ) (2020-10-21T17:39:52Z) - Adaptive Serverless Learning [114.36410688552579]
本研究では,データから学習率を動的に計算できる適応型分散学習手法を提案する。
提案アルゴリズムは, 作業者数に対して線形高速化が可能であることを示す。
通信効率のオーバーヘッドを低減するため,通信効率のよい分散訓練手法を提案する。
論文 参考訳(メタデータ) (2020-08-24T13:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。