論文の概要: MA-Dreamer: Coordination and communication through shared imagination
- arxiv url: http://arxiv.org/abs/2204.04687v1
- Date: Sun, 10 Apr 2022 13:54:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 08:25:48.839912
- Title: MA-Dreamer: Coordination and communication through shared imagination
- Title(参考訳): MA-Dreamer:共有イマジネーションによるコーディネーションとコミュニケーション
- Authors: Kenzo Lobos-Tsunekawa, Akshay Srinivasan, Michael Spranger
- Abstract要約: エージェント中心およびグローバルな環境の微分可能なモデルの両方を利用するモデルベース手法であるMA-Dreamerを提案する。
実験の結果,長期話者リスナータスクや強い部分観測性を持つ協調ゲームにおいて,MA-Dreamerはコーディネートを効果的に活用する解を見出すことができた。
- 参考スコア(独自算出の注目度): 5.253168177256072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent RL is rendered difficult due to the non-stationary nature of
environment perceived by individual agents. Theoretically sound methods using
the REINFORCE estimator are impeded by its high-variance, whereas
value-function based methods are affected by issues stemming from their ad-hoc
handling of situations like inter-agent communication. Methods like MADDPG are
further constrained due to their requirement of centralized critics etc. In
order to address these issues, we present MA-Dreamer, a model-based method that
uses both agent-centric and global differentiable models of the environment in
order to train decentralized agents' policies and critics using model-rollouts
a.k.a `imagination'. Since only the model-training is done off-policy,
inter-agent communication/coordination and `language emergence' can be handled
in a straight-forward manner. We compare the performance of MA-Dreamer with
other methods on two soccer-based games. Our experiments show that in long-term
speaker-listener tasks and in cooperative games with strong
partial-observability, MA-Dreamer finds a solution that makes effective use of
coordination, whereas competing methods obtain marginal scores and fail
outright, respectively. By effectively achieving coordination and communication
under more relaxed and general conditions, out method opens the door to the
study of more complex problems and population-based training.
- Abstract(参考訳): マルチエージェントrlは、個々のエージェントが認識する環境の非定常性のため困難である。
理論的には、REINFORCE推定器を用いた健全な手法はその高分散によって阻害されるが、値関数に基づく手法は、エージェント間通信のような状況のアドホックな処理から生じる問題に影響を受ける。
MADDPGのような手法は、中央集権的な批評家などの要求により、さらに制約される。
これらの問題に対処するために,エージェント中心およびグローバルな環境の差別化可能なモデルを用いたモデルベース手法MA-Dreamerを提案する。
モデルトレーニングのみを非政治的に行うため、エージェント間コミュニケーション/コーディネートや'言語出現'を真っ向から扱うことができる。
2つのサッカーゲームにおけるMA-Dreamerと他の手法との比較を行った。
実験の結果,長期の話者-リスナータスクと強い部分観測性を持つ協調ゲームにおいて,MA-Dreamerは協調を効果的に活用する解を見出した。
より緩やかで一般的な条件下でのコーディネーションとコミュニケーションを効果的に達成することにより、アウトメソッドはより複雑な問題の研究と人口ベースの訓練の扉を開く。
関連論文リスト
- ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Centralized Training with Hybrid Execution in Multi-Agent Reinforcement
Learning [7.163485179361718]
マルチエージェント強化学習(MARL)におけるハイブリッド実行の導入
MARLは、エージェントが任意の通信レベルを持つ協調タスクを実行時に完了させることを目標とする新しいパラダイムである。
我々は,自動回帰予測モデルを用いたMAROを集中的に訓練し,行方不明者の観察を推定する手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T14:58:32Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Scalable Multi-Agent Model-Based Reinforcement Learning [1.95804735329484]
我々は,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。
エージェント間のコミュニケーションは、実行期間中に各エージェントのワールドモデルを維持するのに十分であり、一方、仮想ロールアウトはトレーニングに使用でき、環境と対話する必要がなくなる。
論文 参考訳(メタデータ) (2022-05-25T08:35:00Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Relative Distributed Formation and Obstacle Avoidance with Multi-agent
Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。
提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-11-14T13:02:45Z) - Learning Selective Communication for Multi-Agent Path Finding [18.703918339797283]
決定因果通信(Decision Causal Communication、DCC)は、エージェントが隣人を選択して通信を行うためのシンプルで効率的なモデルである。
DCCは大規模問題を扱うために分散実行に適している。
論文 参考訳(メタデータ) (2021-09-12T03:07:20Z) - Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning [92.05556163518999]
MARLは、コミュニケーションと可観測性に様々な制約を課すことによって、問題を悪化させる。
値ベースの手法では、最適な値関数を正確に表現することが課題となる。
政策勾配法では、批判者の訓練を困難にし、遅れる批判者の問題を悪化させる。
学習理論の観点からは、関連するアクション値関数を正確に表現することで、両方の問題に対処できることが示される。
論文 参考訳(メタデータ) (2021-05-31T23:08:05Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Learning to Model Opponent Learning [11.61673411387596]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。
これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。
我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-06-06T17:19:04Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。