論文の概要: MACRPO: Multi-Agent Cooperative Recurrent Policy Optimization
- arxiv url: http://arxiv.org/abs/2109.00882v1
- Date: Thu, 2 Sep 2021 12:43:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-03 20:59:19.295653
- Title: MACRPO: Multi-Agent Cooperative Recurrent Policy Optimization
- Title(参考訳): MACRPO:マルチエージェント協調並行ポリシー最適化
- Authors: Eshagh Kargar, Ville Kyrki
- Abstract要約: 我々はtextitMulti-Agent Cooperative Recurrent Proximal Policy Optimization (MACRPO) と呼ばれる新しいマルチエージェントアクター批判手法を提案する。
我々は、批評家のネットワークアーキテクチャにおいてリカレント・レイヤを使用し、メタ・トラジェクトリを使用してリカレント・レイヤをトレーニングする新しいフレームワークを提案する。
連続的および離散的な行動空間を持つ3つの挑戦的マルチエージェント環境において,本アルゴリズムの評価を行った。
- 参考スコア(独自算出の注目度): 17.825845543579195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work considers the problem of learning cooperative policies in
multi-agent settings with partially observable and non-stationary environments
without a communication channel. We focus on improving information sharing
between agents and propose a new multi-agent actor-critic method called
\textit{Multi-Agent Cooperative Recurrent Proximal Policy Optimization}
(MACRPO). We propose two novel ways of integrating information across agents
and time in MACRPO: First, we use a recurrent layer in critic's network
architecture and propose a new framework to use a meta-trajectory to train the
recurrent layer. This allows the network to learn the cooperation and dynamics
of interactions between agents, and also handle partial observability. Second,
we propose a new advantage function that incorporates other agents' rewards and
value functions. We evaluate our algorithm on three challenging multi-agent
environments with continuous and discrete action spaces, Deepdrive-Zero,
Multi-Walker, and Particle environment. We compare the results with several
ablations and state-of-the-art multi-agent algorithms such as QMIX and MADDPG
and also single-agent methods with shared parameters between agents such as
IMPALA and APEX. The results show superior performance against other
algorithms. The code is available online at
https://github.com/kargarisaac/macrpo.
- Abstract(参考訳): 本研究は,通信チャネルのない部分可観測環境と非定常環境のマルチエージェント環境における協調政策の学習の問題について考察する。
本稿では,エージェント間の情報共有の改善に焦点をあて,新しいマルチエージェントアクター批判手法である<textit{Multi-Agent Cooperative Recurrent Proximal Policy Optimization} (MACRPO)を提案する。
そこで我々は,MACRPOにおけるエージェント間の情報統合と時間統合の2つの新しい手法を提案する。まず,批判者のネットワークアーキテクチャにおいて再帰層を用いて,再帰層をトレーニングするためにメタ軌道を使用する新しいフレームワークを提案する。
これにより、ネットワークはエージェント間の相互作用の協調とダイナミクスを学び、部分的可観測性も扱うことができる。
第2に,他のエージェントの報酬と価値関数を組み込んだ新たなアドバンテージ関数を提案する。
本研究では,連続的および離散的動作空間,deepdrive-zero,multi-walker,および粒子環境を有する3つの挑戦的マルチエージェント環境においてアルゴリズムを評価する。
結果と,QMIXやMADDPGなどの最先端マルチエージェントアルゴリズムと,IMPALAやAPEXなどのエージェント間でパラメータを共有する単一エージェント手法との比較を行った。
その結果、他のアルゴリズムよりも優れた性能を示す。
コードはhttps://github.com/kargarisaac/macrpoで入手できる。
関連論文リスト
- SACHA: Soft Actor-Critic with Heuristic-Based Attention for Partially
Observable Multi-Agent Path Finding [3.4260993997836753]
我々は,ヒューリスティック・ベース・アテンション(SACHA)を用いたソフト・アクター・クリティカル(Soft Actor-Critic)と呼ばれる新しいマルチエージェント・アクター・クリティカルな手法を提案する。
SACHAは、各エージェントが最短経路ガイダンスに選択的に注目するニューラルネットワークを、その視野内の複数のエージェントから学習する。
我々は、いくつかの最先端の学習ベースMAPF法に対して、成功率とソリューション品質に関して、良好な改善を示す。
論文 参考訳(メタデータ) (2023-07-05T23:36:33Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - Multi-Agent Trust Region Policy Optimization [34.91180300856614]
TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。
マルチエージェントTRPO(MATRPO)と呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T17:49:47Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。