論文の概要: TLeague: A Framework for Competitive Self-Play based Distributed
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2011.12895v2
- Date: Mon, 30 Nov 2020 03:23:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 02:18:34.007849
- Title: TLeague: A Framework for Competitive Self-Play based Distributed
Multi-Agent Reinforcement Learning
- Title(参考訳): TLeague: 競争力のあるセルフプレイベースの分散マルチエージェント強化学習フレームワーク
- Authors: Peng Sun, Jiechao Xiong, Lei Han, Xinghai Sun, Shuxing Li, Jiawei Xu,
Meng Fang, Zhengyou Zhang
- Abstract要約: TLeagueは大規模なトレーニングを目標とし、いくつかのメインストリームMARLアルゴリズムを実装している。
我々は、TLeagueの効率性と有効性を示すために、StarCraft II、ViZDoom、Pommermanについて実験を行った。
- 参考スコア(独自算出の注目度): 28.795986840557475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Competitive Self-Play (CSP) based Multi-Agent Reinforcement Learning (MARL)
has shown phenomenal breakthroughs recently. Strong AIs are achieved for
several benchmarks, including Dota 2, Glory of Kings, Quake III, StarCraft II,
to name a few. Despite the success, the MARL training is extremely data
thirsty, requiring typically billions of (if not trillions of) frames be seen
from the environment during training in order for learning a high performance
agent. This poses non-trivial difficulties for researchers or engineers and
prevents the application of MARL to a broader range of real-world problems. To
address this issue, in this manuscript we describe a framework, referred to as
TLeague, that aims at large-scale training and implements several main-stream
CSP-MARL algorithms. The training can be deployed in either a single machine or
a cluster of hybrid machines (CPUs and GPUs), where the standard Kubernetes is
supported in a cloud native manner. TLeague achieves a high throughput and a
reasonable scale-up when performing distributed training. Thanks to the modular
design, it is also easy to extend for solving other multi-agent problems or
implementing and verifying MARL algorithms. We present experiments over
StarCraft II, ViZDoom and Pommerman to show the efficiency and effectiveness of
TLeague. The code is open-sourced and available at
https://github.com/tencent-ailab/tleague_projpage
- Abstract(参考訳): 競合型セルフプレイ(CSP)に基づくマルチエージェント強化学習(MARL)は,近年,驚くべきブレークスルーを示している。
Dota 2、Glory of Kings、Quake III、StarCraft IIなど、いくつかのベンチマークで強力なAIが実現されている。
成功にもかかわらず、marlトレーニングは非常にデータ渇きが強く、ハイパフォーマンスエージェントを学ぶためには、トレーニング中に数十億フレーム(数兆フレームではないにせよ)を環境から見る必要がある。
これは研究者やエンジニアにとってささいな困難をもたらし、より広い範囲の現実世界の問題にmarlを適用することを防ぐ。
この問題に対処するため,本論文では,大規模トレーニングを目的としたTLeagueと呼ばれるフレームワークを記述し,いくつかの主ストリームCSP-MARLアルゴリズムを実装している。
トレーニングは、標準的なkubernetesがクラウドネイティブな方法でサポートされている単一のマシンまたはハイブリッドマシン(cpuとgpu)のクラスタにデプロイすることができる。
tleagueは、分散トレーニングを行う際に高いスループットと合理的なスケールアップを実現する。
モジュール設計のおかげで、他のマルチエージェント問題の解決やMARLアルゴリズムの実装や検証にも容易に拡張できる。
我々は、TLeagueの効率性と有効性を示すために、StarCraft II、ViZDoom、Pommermanについて実験を行った。
コードはオープンソースで、https://github.com/tencent-ailab/tleague_projpageで入手できる。
関連論文リスト
- JaxMARL: Multi-Agent RL Environments in JAX [107.7560737385902]
我々は、使いやすさとGPU有効性を組み合わせた最初のオープンソースコードベースであるJaxMARLを紹介します。
私たちの実験によると、JAXベースのトレーニングパイプラインの実行は、既存のアプローチよりも最大で12500倍高速です。
また、人気のあるStarCraft Multi-Agent Challengeのベクトル化、単純化されたバージョンであるSMAXを紹介し、ベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T18:58:43Z) - Accelerate Multi-Agent Reinforcement Learning in Zero-Sum Games with
Subgame Curriculum Learning [65.36326734799587]
ゼロサムゲームのための新しいサブゲームカリキュラム学習フレームワークを提案する。
エージェントを以前に訪れた状態にリセットすることで、適応的な初期状態分布を採用する。
我々は,2乗距離をNE値に近似するサブゲーム選択指標を導出する。
論文 参考訳(メタデータ) (2023-10-07T13:09:37Z) - Benchmarking Robustness and Generalization in Multi-Agent Systems: A
Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。
この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。
環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文 参考訳(メタデータ) (2023-08-30T07:16:11Z) - An Empirical Study on Google Research Football Multi-agent Scenarios [30.926070192524193]
トレーニングフレームワークLight-MALibをオープンソースとして公開しています。
我々は、人口ベースのトレーニングで強力なサッカーAIを構築するためのガイダンスを提供し、ベンチマークのための様々な事前訓練されたポリシーをリリースする。
論文 参考訳(メタデータ) (2023-05-16T14:18:53Z) - Centralized control for multi-agent RL in a complex Real-Time-Strategy
game [0.0]
マルチエージェント強化学習(MARL)は、共有環境で共存する複数の学習エージェントの行動を研究する。
MARLはシングルエージェントRLよりも難しい。
このプロジェクトは、Lux AI v2 KaggleコンペティションにRLを適用したエンドツーエンドエクスペリエンスを提供する。
論文 参考訳(メタデータ) (2023-04-25T17:19:05Z) - Towards Human-Level Bimanual Dexterous Manipulation with Reinforcement
Learning [73.92475751508452]
Bimanual Dexterous Hands Benchmark (Bi-DexHands) は、数十のバイマニュアル操作タスクと数千のターゲットオブジェクトを備えた2つのデキスタラスハンドを含むシミュレータである。
Bi-DexHandsのタスクは、認知科学の文献によると、人間の運動能力のレベルが異なるように設計されている。
論文 参考訳(メタデータ) (2022-06-17T11:09:06Z) - TiKick: Toward Playing Multi-agent Football Full Games from Single-agent
Demonstrations [31.596018856092513]
Tikickは、マルチエージェントのGoogle Research Footballのフルゲームを引き継ぐことができる、学習ベースのAIシステムである。
私たちの知る限りでは、Tikickは、マルチエージェントのGoogle Research Footballのフルゲームを引き継ぐことができる、初めての学習ベースのAIシステムだ。
論文 参考訳(メタデータ) (2021-10-09T08:34:58Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:30:25Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。