論文の概要: SMACv2: An Improved Benchmark for Cooperative Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2212.07489v1
- Date: Wed, 14 Dec 2022 20:15:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 17:54:33.942222
- Title: SMACv2: An Improved Benchmark for Cooperative Multi-Agent Reinforcement
Learning
- Title(参考訳): SMACv2: 協調型マルチエージェント強化学習のためのベンチマークの改善
- Authors: Benjamin Ellis, Skander Moalla, Mikayel Samvelyan, Mingfei Sun, Anuj
Mahajan, Jakob N. Foerster and Shimon Whiteson
- Abstract要約: SMACv2は、シナリオが手続き的に生成され、エージェントが以前見つからなかった設定を一般化する必要があるベンチマークの新バージョンである。
これらの変更は、ベンチマークがクローズドループポリシーを使用する必要があることを保証している。
分析の結果, SMACv2はSMACの欠陥に対処し, 次世代のMARL法に役立つことがわかった。
- 参考スコア(独自算出の注目度): 54.33385703136783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The availability of challenging benchmarks has played a key role in the
recent progress of machine learning. In cooperative multi-agent reinforcement
learning, the StarCraft Multi-Agent Challenge (SMAC) has become a popular
testbed for centralised training with decentralised execution. However, after
years of sustained improvement on SMAC, algorithms now achieve near-perfect
performance. In this work, we conduct new analysis demonstrating that SMAC is
not sufficiently stochastic to require complex closed-loop policies. In
particular, we show that an open-loop policy conditioned only on the timestep
can achieve non-trivial win rates for many SMAC scenarios. To address this
limitation, we introduce SMACv2, a new version of the benchmark where scenarios
are procedurally generated and require agents to generalise to previously
unseen settings (from the same distribution) during evaluation. We show that
these changes ensure the benchmark requires the use of closed-loop policies. We
evaluate state-of-the-art algorithms on SMACv2 and show that it presents
significant challenges not present in the original benchmark. Our analysis
illustrates that SMACv2 addresses the discovered deficiencies of SMAC and can
help benchmark the next generation of MARL methods. Videos of training are
available at https://sites.google.com/view/smacv2
- Abstract(参考訳): 挑戦的なベンチマークの可用性は、機械学習の最近の進歩において重要な役割を担っている。
協調型マルチエージェント強化学習において、StarCraft Multi-Agent Challenge (SMAC) は分散実行を伴う集中的なトレーニングのための一般的なテストベッドとなっている。
しかし、長年にわたってSMACを改良してきたアルゴリズムは、ほぼ完全な性能を実現した。
本研究では,SMACが複雑な閉ループポリシーを必要とするほど確率的でないことを示す。
特に,時間経過のみに条件付きオープンループポリシが,多くのSMACシナリオに対して非自明な勝利率を達成することを示す。
この制限に対処するため、SMACv2は、シナリオが手続き的に生成され、評価中に未確認設定(同じ分布から)にエージェントが一般化する必要があるベンチマークの新バージョンである。
これらの変更は、ベンチマークがクローズドループポリシーを使用する必要があることを保証する。
我々は、SMACv2の最先端アルゴリズムを評価し、元のベンチマークには存在しない重要な課題を示すことを示す。
分析の結果,SMACv2はSMACの欠陥に対処し,次世代のMARL手法のベンチマークに役立てることができることがわかった。
トレーニングのビデオはhttps://sites.google.com/view/smacv2で閲覧できる。
関連論文リスト
- A New Approach to Solving SMAC Task: Generating Decision Tree Code from Large Language Models [8.457552813123597]
StarCraft Multi-Agent Challenge (SMAC)は、マルチエージェント強化学習(MARL)において最もよく使われる実験環境の1つである。
従来のMARLアルゴリズムは、モデルをトレーニングするために最大100万ステップの環境と対話する必要があることが多い。
本稿では,LLM-SMACと呼ばれるSMACタスクの解法を提案する。
論文 参考訳(メタデータ) (2024-10-21T13:58:38Z) - SMAClite: A Lightweight Environment for Multi-Agent Reinforcement
Learning [11.292086312664383]
スタークラフト・マルチエージェントチャレンジ (Starcraft Multi-Agent Challenge, SMAC) は、MARLの研究で広く使われているが、重くてクローズドなコンピュータゲームであるStarCraft IIの上に構築されている。
SMAClite - Starcraft IIとオープンソースの両方を分離したSMACliteベースのチャレンジと、特別な知識なしにSMAClite用の新しいコンテンツを作成するフレームワークを紹介する。
SMAClite は SMAClite 上で MARL アルゴリズムを訓練し,SMAClite の結果を再現することにより,SMAClite が SMAC と等価であることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-09T15:55:19Z) - Extending Compositional Attention Networks for Social Reasoning in
Videos [84.12658971655253]
ビデオにおけるソーシャルインタラクションを推論するタスクのための,新しいディープアーキテクチャを提案する。
構成注意ネットワーク(MAC)の多段階推論機能を活用し,マルチモーダル拡張(MAC-X)を提案する。
論文 参考訳(メタデータ) (2022-10-03T19:03:01Z) - Transformer-based Value Function Decomposition for Cooperative
Multi-agent Reinforcement Learning in StarCraft [1.160208922584163]
StarCraft II Multi-Agent Challenge (SMAC)は、協調型マルチエージェント強化学習(MARL)のベンチマーク問題である。
本稿では,トランスミクス(TransMix)というトランスアーキテクチャを導入する。
論文 参考訳(メタデータ) (2022-08-15T16:13:16Z) - MQBench: Towards Reproducible and Deployable Model Quantization
Benchmark [53.12623958951738]
MQBenchは、モデル量子化アルゴリズムの評価、分析、およびデプロイ可能性のベンチマークを行う最初の試みである。
我々は、CPU、GPU、ASIC、DSPを含む実世界のデプロイのための複数のプラットフォームを選択し、最先端の量子化アルゴリズムを評価する。
包括的な分析を行い、直感的、直感的、あるいは反直感的な洞察を見出す。
論文 参考訳(メタデータ) (2021-11-05T23:38:44Z) - Divergence-Regularized Multi-Agent Actor-Critic [17.995905582226467]
我々は、分散正規化マルチエージェント・アクター・クリティック(DMAC)という、政治以外の新しい協調型MARLフレームワークを提案する。
DMACはフレキシブルなフレームワークであり、既存のMARLアルゴリズムと組み合わせることができる。
DMACは既存のMARLアルゴリズムの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-10-01T10:27:42Z) - QTRAN++: Improved Value Transformation for Cooperative Multi-Agent
Reinforcement Learning [70.382101956278]
QTRANは、最大級の共同作用値関数を学習できる強化学習アルゴリズムである。
理論的な保証は強いが、複雑な環境での実証的な性能は劣っている。
そこで我々はQTRAN++という改良版を提案する。
論文 参考訳(メタデータ) (2020-06-22T05:08:36Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z) - MACER: Attack-free and Scalable Robust Training via Maximizing Certified
Radius [133.47492985863136]
敵対的トレーニングは、堅牢なモデルを学習する最も一般的な方法の1つだが、通常は攻撃に依存し、コストがかかる。
敵の訓練を使わずに頑健なモデルを学習するMACERアルゴリズムを提案する。
すべてのタスクに対してMACERは、最先端の対人訓練アルゴリズムよりもトレーニング時間が少ない。
論文 参考訳(メタデータ) (2020-01-08T05:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。