論文の概要: SMAC-Hard: Enabling Mixed Opponent Strategy Script and Self-play on SMAC
- arxiv url: http://arxiv.org/abs/2412.17707v1
- Date: Mon, 23 Dec 2024 16:36:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:58:58.178282
- Title: SMAC-Hard: Enabling Mixed Opponent Strategy Script and Self-play on SMAC
- Title(参考訳): SMAC-Hard: SMAC上でのMixed Opponent Strategy ScriptとSelf-playを実現する
- Authors: Yue Deng, Yan Yu, Weiyu Ma, Zirui Wang, Wenhui Zhu, Jian Zhao, Yin Zhang,
- Abstract要約: トレーニングの堅牢性と評価の包括性を高めるための新しいベンチマークであるSMAC-HARDを提案する。
SMAC-HARDは、カスタマイズ可能な対戦戦略、敵ポリシーのランダム化、MARLのセルフプレイのためのインターフェースをサポートする。
我々は、SMAC-HARD上で広く使われているアルゴリズムと最先端のアルゴリズムを広範囲に評価し、編集・混合戦略相手がもたらす重大な課題を明らかにした。
- 参考スコア(独自算出の注目度): 19.897956357070697
- License:
- Abstract: The availability of challenging simulation environments is pivotal for advancing the field of Multi-Agent Reinforcement Learning (MARL). In cooperative MARL settings, the StarCraft Multi-Agent Challenge (SMAC) has gained prominence as a benchmark for algorithms following centralized training with decentralized execution paradigm. However, with continual advancements in SMAC, many algorithms now exhibit near-optimal performance, complicating the evaluation of their true effectiveness. To alleviate this problem, in this work, we highlight a critical issue: the default opponent policy in these environments lacks sufficient diversity, leading MARL algorithms to overfit and exploit unintended vulnerabilities rather than learning robust strategies. To overcome these limitations, we propose SMAC-HARD, a novel benchmark designed to enhance training robustness and evaluation comprehensiveness. SMAC-HARD supports customizable opponent strategies, randomization of adversarial policies, and interfaces for MARL self-play, enabling agents to generalize to varying opponent behaviors and improve model stability. Furthermore, we introduce a black-box testing framework wherein agents are trained without exposure to the edited opponent scripts but are tested against these scripts to evaluate the policy coverage and adaptability of MARL algorithms. We conduct extensive evaluations of widely used and state-of-the-art algorithms on SMAC-HARD, revealing the substantial challenges posed by edited and mixed strategy opponents. Additionally, the black-box strategy tests illustrate the difficulty of transferring learned policies to unseen adversaries. We envision SMAC-HARD as a critical step toward benchmarking the next generation of MARL algorithms, fostering progress in self-play methods for multi-agent systems. Our code is available at https://github.com/devindeng94/smac-hard.
- Abstract(参考訳): マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)の分野を前進させる上で,課題となるシミュレーション環境の可用性が重要である。
協調的なMARL設定では、分散実行パラダイムによる集中トレーニング後のアルゴリズムのベンチマークとして、StarCraft Multi-Agent Challenge (SMAC)が注目されている。
しかし、SMACの継続的な進歩により、現在では多くのアルゴリズムがほぼ最適性能を示し、真の有効性の評価を複雑にしている。
これらの環境におけるデフォルトの反対ポリシーは十分な多様性を欠いているため、MARLアルゴリズムは堅牢な戦略を学ぶのではなく、意図しない脆弱性を過小評価し、活用する。
これらの制約を克服するために、トレーニングの堅牢性と評価の包括性を高めるために設計された新しいベンチマークであるSMAC-HARDを提案する。
SMAC-HARDは、カスタマイズ可能な対向戦略、対向ポリシーのランダム化、MARLセルフプレイのためのインターフェースをサポートし、エージェントが様々な対向行動に一般化し、モデルの安定性を向上させる。
さらに、ブラックボックステストフレームワークを導入し、エージェントは編集対象のスクリプトを使わずにトレーニングされるが、これらのスクリプトに対してテストを行い、MARLアルゴリズムのポリシーカバレッジと適応性を評価する。
我々は、SMAC-HARD上で広く使われているアルゴリズムと最先端のアルゴリズムを広範囲に評価し、編集・混合戦略相手がもたらす重大な課題を明らかにした。
さらに、ブラックボックス戦略テストは、学習したポリシーを目に見えない敵に転送することの難しさを示している。
我々は,次世代のMARLアルゴリズムをベンチマークするための重要なステップとして,SMAC-HARDを想定する。
私たちのコードはhttps://github.com/devindeng94/smac-hardで公開されています。
関連論文リスト
- A New Approach to Solving SMAC Task: Generating Decision Tree Code from Large Language Models [8.457552813123597]
StarCraft Multi-Agent Challenge (SMAC)は、マルチエージェント強化学習(MARL)において最もよく使われる実験環境の1つである。
従来のMARLアルゴリズムは、モデルをトレーニングするために最大100万ステップの環境と対話する必要があることが多い。
本稿では,LLM-SMACと呼ばれるSMACタスクの解法を提案する。
論文 参考訳(メタデータ) (2024-10-21T13:58:38Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - SMAClite: A Lightweight Environment for Multi-Agent Reinforcement
Learning [11.292086312664383]
スタークラフト・マルチエージェントチャレンジ (Starcraft Multi-Agent Challenge, SMAC) は、MARLの研究で広く使われているが、重くてクローズドなコンピュータゲームであるStarCraft IIの上に構築されている。
SMAClite - Starcraft IIとオープンソースの両方を分離したSMACliteベースのチャレンジと、特別な知識なしにSMAClite用の新しいコンテンツを作成するフレームワークを紹介する。
SMAClite は SMAClite 上で MARL アルゴリズムを訓練し,SMAClite の結果を再現することにより,SMAClite が SMAC と等価であることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-09T15:55:19Z) - SMACv2: An Improved Benchmark for Cooperative Multi-Agent Reinforcement
Learning [45.98103968842858]
StarCraft Multi-Agent Challenge (SMAC)は、分散実行を伴う集中的なトレーニングのための人気のあるテストベッドである。
SMAC には複雑な *closed-loop* ポリシーを必要とする部分的な可観測性がないことを示す。
SMACv2は、シナリオが手続き的に生成され、エージェントが以前見つからなかった設定を一般化する必要があるベンチマークの新バージョンである。
論文 参考訳(メタデータ) (2022-12-14T20:15:19Z) - Towards Comprehensive Testing on the Robustness of Cooperative
Multi-agent Reinforcement Learning [10.132303690998523]
c-MARLアルゴリズムが実際にデプロイされる前に、ロバスト性をテストすることが重要である。
MARLの既存の敵攻撃はテストに使用できるが、1つの堅牢性に制限されている。
我々は,c-MARLアルゴリズムの最初のロバストネステストフレームワークであるMARLSafeを提案する。
論文 参考訳(メタデータ) (2022-04-17T05:15:51Z) - Divergence-Regularized Multi-Agent Actor-Critic [17.995905582226467]
我々は、分散正規化マルチエージェント・アクター・クリティック(DMAC)という、政治以外の新しい協調型MARLフレームワークを提案する。
DMACはフレキシブルなフレームワークであり、既存のMARLアルゴリズムと組み合わせることができる。
DMACは既存のMARLアルゴリズムの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-10-01T10:27:42Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。