論文の概要: MAESTRO: Open-Ended Environment Design for Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2303.03376v1
- Date: Mon, 6 Mar 2023 18:57:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 14:41:55.637504
- Title: MAESTRO: Open-Ended Environment Design for Multi-Agent Reinforcement
Learning
- Title(参考訳): MAESTRO:マルチエージェント強化学習のためのオープンエンド環境設計
- Authors: Mikayel Samvelyan, Akbir Khan, Michael Dennis, Minqi Jiang, Jack
Parker-Holder, Jakob Foerster, Roberta Raileanu, Tim Rockt\"aschel
- Abstract要約: オープンエンドラーニングのためのマルチエージェント環境設計ストラテジスト(MAESTRO)を紹介する。
MAESTROは、2プレイヤーゼロサム設定のための最初のマルチエージェントUEDアプローチである。
実験の結果,MAESTROは,対戦型2プレーヤゲームにおいて,強力なベースラインを達成していることがわかった。
- 参考スコア(独自算出の注目度): 22.28076947612619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-ended learning methods that automatically generate a curriculum of
increasingly challenging tasks serve as a promising avenue toward generally
capable reinforcement learning agents. Existing methods adapt curricula
independently over either environment parameters (in single-agent settings) or
co-player policies (in multi-agent settings). However, the strengths and
weaknesses of co-players can manifest themselves differently depending on
environmental features. It is thus crucial to consider the dependency between
the environment and co-player when shaping a curriculum in multi-agent domains.
In this work, we use this insight and extend Unsupervised Environment Design
(UED) to multi-agent environments. We then introduce Multi-Agent Environment
Design Strategist for Open-Ended Learning (MAESTRO), the first multi-agent UED
approach for two-player zero-sum settings. MAESTRO efficiently produces
adversarial, joint curricula over both environments and co-players and attains
minimax-regret guarantees at Nash equilibrium. Our experiments show that
MAESTRO outperforms a number of strong baselines on competitive two-player
games, spanning discrete and continuous control settings.
- Abstract(参考訳): ますます困難なタスクのカリキュラムを自動的に生成するオープンエンド学習手法は、汎用的な強化学習エージェントへの有望な道のりとなっている。
既存のメソッドは、環境パラメータ(シングルエージェント設定)またはコプレイヤーポリシー(マルチエージェント設定)に独立してキュキュキュラを適用する。
しかし,コプレーヤの強みや弱みは,環境特性によって異なる。
したがって、マルチエージェントドメインでカリキュラムを形作る場合、環境とコプレイヤー間の依存性を考慮することが不可欠である。
本研究では,この知見を用いて,教師なし環境設計(UED)をマルチエージェント環境に拡張する。
次に,オープンエンド学習のためのマルチエージェント環境設計ストラテジスト(maestro)を導入する。
MAESTROは、環境と共同プレイヤの両方で対向的、共同キュキュキュラを効率よく生成し、ナッシュ平衡においてミニマックス-レグレット保証を達成する。
実験の結果、MAESTROは、離散的かつ連続的な制御設定にまたがる、競争力のある2プレイヤーゲームにおいて、多くの強力なベースラインを上回ります。
関連論文リスト
- Multi-Agent Diagnostics for Robustness via Illuminated Diversity [37.38316542660311]
発光ダイバーシティ(MADRID)によるロバストネスのマルチエージェント診断法を提案する。
MADRIDは、事前訓練されたマルチエージェントポリシーの戦略的脆弱性を明らかにする様々な敵シナリオを生成する。
我々は,Google Research Footballの11vs11バージョンにおけるMADRIDの有効性を評価する。
論文 参考訳(メタデータ) (2024-01-24T14:02:09Z) - Leading the Pack: N-player Opponent Shaping [52.682734939786464]
我々は、複数のコプレーヤと複数のシェーピングエージェントを含む環境に、対向型シェーピング(OS)メソッドを拡張します。
多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。
論文 参考訳(メタデータ) (2023-12-19T20:01:42Z) - Stackelberg Games for Learning Emergent Behaviors During Competitive
Autocurricula [35.88217121803472]
本稿では,新たなゲーム理論アルゴリズムであるStackelberg Multi-Agent Deep Deterministic Policy Gradient (ST-MADDPG)を提案する。
マルチプレイヤーのMARL問題をスタックルバーグゲームとして定式化し、1人のプレイヤーをリーダーとして、もう1人のプレイヤーを従者として、階層的な相互作用構造においてリーダーが有利である。
リーダーの利点を活用することで、ST-MADDPGは共進化プロセスの品質を改善し、目に見えない強力な相手に対してさえうまく機能するより洗練された複雑な戦略をもたらす。
論文 参考訳(メタデータ) (2023-05-04T19:27:35Z) - Multi-Agent Interplay in a Competitive Survival Environment [0.0]
この論文は、2022年、ローマ・サピエンザ大学の人工知能とロボティクスの修士号に対する著者の論文"Multi-Agent Interplay in a Competitive Survival Environment"の一部である。
論文 参考訳(メタデータ) (2023-01-19T12:04:03Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - Semantic Tracklets: An Object-Centric Representation for Visual
Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。
視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。
特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文 参考訳(メタデータ) (2021-08-06T22:19:09Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。