論文の概要: Scalable Anytime Planning for Multi-Agent MDPs
- arxiv url: http://arxiv.org/abs/2101.04788v1
- Date: Tue, 12 Jan 2021 22:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 02:25:43.234712
- Title: Scalable Anytime Planning for Multi-Agent MDPs
- Title(参考訳): マルチエージェントmdpのためのスケーラブルなanytime planning
- Authors: Shushman Choudhury, Jayesh K. Gupta, Peter Morales, Mykel J.
Kochenderfer
- Abstract要約: 動的協調を必要とする大規模マルチエージェント連続的決定問題に対するスケーラブルな木探索計画アルゴリズムを提案する。
提案アルゴリズムは,モンテカルロ木探索 (MCTS) を用いたオンライン計画,協調グラフを用いた局所エージェント相互作用の因子表現,および協調行動選択のための反復マックスプラス法からなる。
- 参考スコア(独自算出の注目度): 37.69939216970677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a scalable tree search planning algorithm for large multi-agent
sequential decision problems that require dynamic collaboration. Teams of
agents need to coordinate decisions in many domains, but naive approaches fail
due to the exponential growth of the joint action space with the number of
agents. We circumvent this complexity through an anytime approach that allows
us to trade computation for approximation quality and also dynamically
coordinate actions. Our algorithm comprises three elements: online planning
with Monte Carlo Tree Search (MCTS), factored representations of local agent
interactions with coordination graphs, and the iterative Max-Plus method for
joint action selection. We evaluate our approach on the benchmark SysAdmin
domain with static coordination graphs and achieve comparable performance with
much lower computation cost than our MCTS baselines. We also introduce a
multi-drone delivery domain with dynamic, i.e., state-dependent coordination
graphs, and demonstrate how our approach scales to large problems on this
domain that are intractable for other MCTS methods. We provide an open-source
implementation of our algorithm at
https://github.com/JuliaPOMDP/FactoredValueMCTS.jl.
- Abstract(参考訳): 動的協調を必要とする大規模マルチエージェントシーケンシャル決定問題に対して,スケーラブルな木探索計画アルゴリズムを提案する。
エージェントのチームは多くのドメインで決定をコーディネートする必要があるが、単純なアプローチはエージェントの数と共同アクション空間が指数関数的に増加するために失敗する。
私たちはこの複雑さを、近似品質と動的に協調する動作のために計算を交換できるanytimeアプローチを通じて回避します。
提案アルゴリズムは,モンテカルロ木探索 (MCTS) を用いたオンライン計画,協調グラフを用いた局所エージェント相互作用の因子表現,および協調行動選択のための反復マックスプラス法からなる。
我々は,静的コーディネーショングラフを用いたベンチマークSysAdminのアプローチを評価し,MCTSベースラインよりも計算コストがはるかに低い性能を実現する。
また,動的,すなわち状態依存のコーディネーショングラフを持つマルチドローン配送ドメインを導入し,我々のアプローチが,他のmctsメソッドでは難解なこの領域の大きな問題にどのようにスケールするかを実証する。
我々はこのアルゴリズムのオープンソース実装をhttps://github.com/JuliaPOMDP/FactoredValueMCTS.jlで公開しています。
関連論文リスト
- Approximate Linear Programming and Decentralized Policy Improvement in
Cooperative Multi-agent Markov Decision Processes [5.842054972839244]
協調型多エージェント有限・無限水平分散型MDPに対する近似的ポリシー反復アルゴリズムを提案する。
我々のアルゴリズムは、多数の状態と複数のエージェントの両方を扱うことができる。
論文 参考訳(メタデータ) (2023-11-20T14:14:13Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Continuous Monte Carlo Graph Search [61.11769232283621]
連続モンテカルログラフサーチ(Continuous Monte Carlo Graph Search, CMCGS)は、モンテカルログラフサーチ(MCTS)のオンラインプランニングへの拡張である。
CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。
並列化によってスケールアップすることができ、学習力学モデルによる連続制御においてクロスエントロピー法(CEM)よりも優れている。
論文 参考訳(メタデータ) (2022-10-04T07:34:06Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Learning Cooperation and Online Planning Through Simulation and Graph
Convolutional Network [5.505634045241288]
マルチエージェント協調環境のためのシミュレーションベースのオンライン計画アルゴリズム「SiCLOP」を導入する。
具体的には、SiCLOPはMCTS(Monte Carlo Tree Search)を補完し、協調学習にコーディネーショングラフ(CG)とグラフニューラルネットワーク(GCN)を使用する。
また、アクション空間を効果的に刈り取ることによりスケーラビリティも向上する。
論文 参考訳(メタデータ) (2021-10-16T05:54:32Z) - MACRPO: Multi-Agent Cooperative Recurrent Policy Optimization [17.825845543579195]
我々はtextitMulti-Agent Cooperative Recurrent Proximal Policy Optimization (MACRPO) と呼ばれる新しいマルチエージェントアクター批判手法を提案する。
我々は、批評家のネットワークアーキテクチャにおいてリカレント・レイヤを使用し、メタ・トラジェクトリを使用してリカレント・レイヤをトレーニングする新しいフレームワークを提案する。
連続的および離散的な行動空間を持つ3つの挑戦的マルチエージェント環境において,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-09-02T12:43:35Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。