論文の概要: MA-Dreamer: Coordination and communication through shared imagination
- arxiv url: http://arxiv.org/abs/2204.04687v1
- Date: Sun, 10 Apr 2022 13:54:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 08:25:48.839912
- Title: MA-Dreamer: Coordination and communication through shared imagination
- Title(参考訳): MA-Dreamer:共有イマジネーションによるコーディネーションとコミュニケーション
- Authors: Kenzo Lobos-Tsunekawa, Akshay Srinivasan, Michael Spranger
- Abstract要約: エージェント中心およびグローバルな環境の微分可能なモデルの両方を利用するモデルベース手法であるMA-Dreamerを提案する。
実験の結果,長期話者リスナータスクや強い部分観測性を持つ協調ゲームにおいて,MA-Dreamerはコーディネートを効果的に活用する解を見出すことができた。
- 参考スコア(独自算出の注目度): 5.253168177256072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent RL is rendered difficult due to the non-stationary nature of
environment perceived by individual agents. Theoretically sound methods using
the REINFORCE estimator are impeded by its high-variance, whereas
value-function based methods are affected by issues stemming from their ad-hoc
handling of situations like inter-agent communication. Methods like MADDPG are
further constrained due to their requirement of centralized critics etc. In
order to address these issues, we present MA-Dreamer, a model-based method that
uses both agent-centric and global differentiable models of the environment in
order to train decentralized agents' policies and critics using model-rollouts
a.k.a `imagination'. Since only the model-training is done off-policy,
inter-agent communication/coordination and `language emergence' can be handled
in a straight-forward manner. We compare the performance of MA-Dreamer with
other methods on two soccer-based games. Our experiments show that in long-term
speaker-listener tasks and in cooperative games with strong
partial-observability, MA-Dreamer finds a solution that makes effective use of
coordination, whereas competing methods obtain marginal scores and fail
outright, respectively. By effectively achieving coordination and communication
under more relaxed and general conditions, out method opens the door to the
study of more complex problems and population-based training.
- Abstract(参考訳): マルチエージェントrlは、個々のエージェントが認識する環境の非定常性のため困難である。
理論的には、REINFORCE推定器を用いた健全な手法はその高分散によって阻害されるが、値関数に基づく手法は、エージェント間通信のような状況のアドホックな処理から生じる問題に影響を受ける。
MADDPGのような手法は、中央集権的な批評家などの要求により、さらに制約される。
これらの問題に対処するために,エージェント中心およびグローバルな環境の差別化可能なモデルを用いたモデルベース手法MA-Dreamerを提案する。
モデルトレーニングのみを非政治的に行うため、エージェント間コミュニケーション/コーディネートや'言語出現'を真っ向から扱うことができる。
2つのサッカーゲームにおけるMA-Dreamerと他の手法との比較を行った。
実験の結果,長期の話者-リスナータスクと強い部分観測性を持つ協調ゲームにおいて,MA-Dreamerは協調を効果的に活用する解を見出した。
より緩やかで一般的な条件下でのコーディネーションとコミュニケーションを効果的に達成することにより、アウトメソッドはより複雑な問題の研究と人口ベースの訓練の扉を開く。
関連論文リスト
- PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Multi-Agent Reinforcement Learning-Based UAV Pathfinding for Obstacle Avoidance in Stochastic Environment [12.122881147337505]
マルチエージェント強化学習に基づく分散実行手法を用いた新しい集中型学習法を提案する。
このアプローチでは、エージェントは集中型プランナーとのみ通信し、オンラインで分散的な決定を行う。
訓練効率を高めるため,多段階強化学習において多段階値収束を行う。
論文 参考訳(メタデータ) (2023-10-25T14:21:22Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Centralized Training with Hybrid Execution in Multi-Agent Reinforcement
Learning [7.163485179361718]
マルチエージェント強化学習(MARL)におけるハイブリッド実行の導入
MARLは、エージェントが任意の通信レベルを持つ協調タスクを実行時に完了させることを目標とする新しいパラダイムである。
我々は,自動回帰予測モデルを用いたMAROを集中的に訓練し,行方不明者の観察を推定する手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T14:58:32Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Scalable Multi-Agent Model-Based Reinforcement Learning [1.95804735329484]
我々は,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。
エージェント間のコミュニケーションは、実行期間中に各エージェントのワールドモデルを維持するのに十分であり、一方、仮想ロールアウトはトレーニングに使用でき、環境と対話する必要がなくなる。
論文 参考訳(メタデータ) (2022-05-25T08:35:00Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Relative Distributed Formation and Obstacle Avoidance with Multi-agent
Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。
提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-11-14T13:02:45Z) - Learning Selective Communication for Multi-Agent Path Finding [18.703918339797283]
決定因果通信(Decision Causal Communication、DCC)は、エージェントが隣人を選択して通信を行うためのシンプルで効率的なモデルである。
DCCは大規模問題を扱うために分散実行に適している。
論文 参考訳(メタデータ) (2021-09-12T03:07:20Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。