論文の概要: FightLadder: A Benchmark for Competitive Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.02081v2
- Date: Mon, 24 Jun 2024 03:38:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 00:23:38.164337
- Title: FightLadder: A Benchmark for Competitive Multi-Agent Reinforcement Learning
- Title(参考訳): FightLadder: 競争力のあるマルチエージェント強化学習のためのベンチマーク
- Authors: Wenzhe Li, Zihan Ding, Seth Karten, Chi Jin,
- Abstract要約: 我々は、リアルタイムの格闘ゲームプラットフォームであるFightLadderを紹介し、競争力のあるMARL研究を促進する。
競争ゲームのための最先端のMARLアルゴリズムの実装と評価指標のセットを提供する。
シングルプレイヤーモードで12文字を連続的に打ち破る汎用エージェントを訓練することにより,このプラットフォームの実現可能性を示す。
- 参考スコア(独自算出の注目度): 25.857375787748715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in reinforcement learning (RL) heavily rely on a variety of well-designed benchmarks, which provide environmental platforms and consistent criteria to evaluate existing and novel algorithms. Specifically, in multi-agent RL (MARL), a plethora of benchmarks based on cooperative games have spurred the development of algorithms that improve the scalability of cooperative multi-agent systems. However, for the competitive setting, a lightweight and open-sourced benchmark with challenging gaming dynamics and visual inputs has not yet been established. In this work, we present FightLadder, a real-time fighting game platform, to empower competitive MARL research. Along with the platform, we provide implementations of state-of-the-art MARL algorithms for competitive games, as well as a set of evaluation metrics to characterize the performance and exploitability of agents. We demonstrate the feasibility of this platform by training a general agent that consistently defeats 12 built-in characters in single-player mode, and expose the difficulty of training a non-exploitable agent without human knowledge and demonstrations in two-player mode. FightLadder provides meticulously designed environments to address critical challenges in competitive MARL research, aiming to catalyze a new era of discovery and advancement in the field. Videos and code at https://sites.google.com/view/fightladder/home.
- Abstract(参考訳): 近年の強化学習(RL)の進歩は、環境プラットフォームと、既存のアルゴリズムと新しいアルゴリズムを評価するための一貫した基準を提供する、よく設計された様々なベンチマークに大きく依存している。
具体的には、MARL(Multi-agent RL)において、協調ゲームに基づく多数のベンチマークが、協調型マルチエージェントシステムのスケーラビリティを向上させるアルゴリズムの開発に拍車をかけた。
しかし、競争の激しい環境では、挑戦的なゲームダイナミクスとビジュアルインプットを備えた軽量でオープンソースなベンチマークはまだ確立されていない。
本研究では,リアルタイム格闘ゲームプラットフォームであるFightLadderを紹介し,競争力のあるMARL研究を促進する。
このプラットフォームとともに、競争ゲームのための最先端のMARLアルゴリズムの実装と、エージェントの性能と利用性を特徴付ける評価指標のセットを提供する。
本研究では, シングルプレイヤーモードで12文字を連続的に打ち破る汎用エージェントを訓練することにより, このプラットフォームの有効性を実証する。
FightLadderは、競争力のあるMARL研究における重要な課題に対処するために、慎重に設計された環境を提供する。
Videos and code at https://sites.google.com/view/fightladder/home.com
関連論文リスト
- Reinforcing Competitive Multi-Agents for Playing So Long Sucker [0.393259574660092]
本稿では,戦略ゲームSo Long Suckerにおける古典的深層学習(DRL)アルゴリズム,DQN,DDQN,Dueling DQNの使用について検討する。
研究の第一の目的は、古典的なDRL手法を用いて、ゲームのルールと戦略を自律エージェントに教えることである。
論文 参考訳(メタデータ) (2024-11-17T12:38:13Z) - Minimax Exploiter: A Data Efficient Approach for Competitive Self-Play [12.754819077905061]
Minimax Exploiterは、敵の知識を活用するメインエージェントを利用するゲーム理論のアプローチである。
簡単なターンベースゲームやアーケード学習環境,現代的なビデオゲームであるFor Honorなど,さまざまな設定でアプローチを検証する。
論文 参考訳(メタデータ) (2023-11-28T19:34:40Z) - Benchmarking Robustness and Generalization in Multi-Agent Systems: A
Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。
この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。
環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文 参考訳(メタデータ) (2023-08-30T07:16:11Z) - Mimicking To Dominate: Imitation Learning Strategies for Success in
Multiagent Competitive Games [13.060023718506917]
我々は、対戦者の次の動きを予測するための新しいマルチエージェント模倣学習モデルを開発する。
また、模倣学習モデルとポリシートレーニングを組み合わせた、新しいマルチエージェント強化学習アルゴリズムを1つのトレーニングプロセスに導入する。
実験結果から,本手法は既存のマルチエージェントRLアルゴリズムと比較して性能が優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-20T07:30:13Z) - DIAMBRA Arena: a New Reinforcement Learning Platform for Research and
Experimentation [91.3755431537592]
本研究は、強化学習研究と実験のための新しいプラットフォームであるDIAMBRA Arenaを提示する。
高品質な環境のコレクションが,OpenAI Gym標準に完全に準拠したPython APIを公開している。
これらは、離散的なアクションと観測を生のピクセルと追加の数値で構成したエピソディックなタスクである。
論文 参考訳(メタデータ) (2022-10-19T14:39:10Z) - Retrospective on the 2021 BASALT Competition on Learning from Human
Feedback [92.37243979045817]
競争の目的は、人間のフィードバック(LfHF)技術から学び、オープンワールドの課題を解決するエージェントへの研究を促進することであった。
LfHF技術の使用を義務付けるのではなく、ビデオゲームMinecraftで達成すべき自然言語の4つのタスクについて説明した。
チームは、様々な可能な人間のフィードバックタイプにまたがる多様なLfHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-04-14T17:24:54Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - TLeague: A Framework for Competitive Self-Play based Distributed
Multi-Agent Reinforcement Learning [28.795986840557475]
TLeagueは大規模なトレーニングを目標とし、いくつかのメインストリームMARLアルゴリズムを実装している。
我々は、TLeagueの効率性と有効性を示すために、StarCraft II、ViZDoom、Pommermanについて実験を行った。
論文 参考訳(メタデータ) (2020-11-25T17:24:20Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。