Fugu-MT 論文翻訳(概要): TLeague: A Framework for Competitive Self-Play based Distributed Multi-Agent Reinforcement Learning

論文の概要: TLeague: A Framework for Competitive Self-Play based Distributed Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2011.12895v2
Date: Mon, 30 Nov 2020 03:23:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-21 02:18:34.007849
Title: TLeague: A Framework for Competitive Self-Play based Distributed Multi-Agent Reinforcement Learning
Title（参考訳）: TLeague: 競争力のあるセルフプレイベースの分散マルチエージェント強化学習フレームワーク
Authors: Peng Sun, Jiechao Xiong, Lei Han, Xinghai Sun, Shuxing Li, Jiawei Xu, Meng Fang, Zhengyou Zhang
Abstract要約: TLeagueは大規模なトレーニングを目標とし、いくつかのメインストリームMARLアルゴリズムを実装している。我々は、TLeagueの効率性と有効性を示すために、StarCraft II、ViZDoom、Pommermanについて実験を行った。
参考スコア（独自算出の注目度）: 28.795986840557475
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Competitive Self-Play (CSP) based Multi-Agent Reinforcement Learning (MARL) has shown phenomenal breakthroughs recently. Strong AIs are achieved for several benchmarks, including Dota 2, Glory of Kings, Quake III, StarCraft II, to name a few. Despite the success, the MARL training is extremely data thirsty, requiring typically billions of (if not trillions of) frames be seen from the environment during training in order for learning a high performance agent. This poses non-trivial difficulties for researchers or engineers and prevents the application of MARL to a broader range of real-world problems. To address this issue, in this manuscript we describe a framework, referred to as TLeague, that aims at large-scale training and implements several main-stream CSP-MARL algorithms. The training can be deployed in either a single machine or a cluster of hybrid machines (CPUs and GPUs), where the standard Kubernetes is supported in a cloud native manner. TLeague achieves a high throughput and a reasonable scale-up when performing distributed training. Thanks to the modular design, it is also easy to extend for solving other multi-agent problems or implementing and verifying MARL algorithms. We present experiments over StarCraft II, ViZDoom and Pommerman to show the efficiency and effectiveness of TLeague. The code is open-sourced and available at https://github.com/tencent-ailab/tleague_projpage
Abstract（参考訳）: 競合型セルフプレイ(CSP)に基づくマルチエージェント強化学習(MARL)は,近年,驚くべきブレークスルーを示している。 Dota 2、Glory of Kings、Quake III、StarCraft IIなど、いくつかのベンチマークで強力なAIが実現されている。成功にもかかわらず、marlトレーニングは非常にデータ渇きが強く、ハイパフォーマンスエージェントを学ぶためには、トレーニング中に数十億フレーム(数兆フレームではないにせよ)を環境から見る必要がある。これは研究者やエンジニアにとってささいな困難をもたらし、より広い範囲の現実世界の問題にmarlを適用することを防ぐ。この問題に対処するため,本論文では,大規模トレーニングを目的としたTLeagueと呼ばれるフレームワークを記述し,いくつかの主ストリームCSP-MARLアルゴリズムを実装している。トレーニングは、標準的なkubernetesがクラウドネイティブな方法でサポートされている単一のマシンまたはハイブリッドマシン(cpuとgpu)のクラスタにデプロイすることができる。 tleagueは、分散トレーニングを行う際に高いスループットと合理的なスケールアップを実現する。モジュール設計のおかげで、他のマルチエージェント問題の解決やMARLアルゴリズムの実装や検証にも容易に拡張できる。我々は、TLeagueの効率性と有効性を示すために、StarCraft II、ViZDoom、Pommermanについて実験を行った。コードはオープンソースで、https://github.com/tencent-ailab/tleague_projpageで入手できる。

関連論文リスト

FightLadder: A Benchmark for Competitive Multi-Agent Reinforcement Learning [25.857375787748715]
我々は、リアルタイムの格闘ゲームプラットフォームであるFightLadderを紹介し、競争力のあるMARL研究を促進する。競争ゲームのための最先端のMARLアルゴリズムの実装と評価指標のセットを提供する。シングルプレイヤーモードで12文字を連続的に打ち破る汎用エージェントを訓練することにより,このプラットフォームの実現可能性を示す。
論文参考訳（メタデータ） (2024-06-04T08:04:23Z)
MARL-LNS: Cooperative Multi-agent Reinforcement Learning via Large Neighborhoods Search [27.807695570974644]
本稿では,エージェントのサブセットを交互にトレーニングすることで,問題に対処するための一般的なトレーニングフレームワークであるMARL-LNSを提案する。我々のアルゴリズムは、トレーニング時間の少なくとも10%を自動で削減し、元のアルゴリズムと同じ最終スキルレベルに到達できることを示します。
論文参考訳（メタデータ） (2024-04-03T22:51:54Z)
JaxMARL: Multi-Agent RL Environments and Algorithms in JAX [105.343918678781]
我々は、GPU対応の効率と多くの一般的なMARL環境のサポートを組み合わせた、最初のオープンソースPythonベースのライブラリであるJaxMARLを紹介します。我々の実験は、壁時計時間の観点から、JAXベースのトレーニングパイプラインが既存のアプローチの約14倍高速であることを示している。また、人気の高いStarCraft Multi-Agent ChallengeのJAXベースの近似的な再実装であるSMAXを紹介し、ベンチマークする。
論文参考訳（メタデータ） (2023-11-16T18:58:43Z)
Accelerate Multi-Agent Reinforcement Learning in Zero-Sum Games with Subgame Curriculum Learning [65.36326734799587]
ゼロサムゲームのための新しいサブゲームカリキュラム学習フレームワークを提案する。エージェントを以前に訪れた状態にリセットすることで、適応的な初期状態分布を採用する。我々は,2乗距離をNE値に近似するサブゲーム選択指標を導出する。
論文参考訳（メタデータ） (2023-10-07T13:09:37Z)
Benchmarking Robustness and Generalization in Multi-Agent Systems: A Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文参考訳（メタデータ） (2023-08-30T07:16:11Z)
An Empirical Study on Google Research Football Multi-agent Scenarios [30.926070192524193]
トレーニングフレームワークLight-MALibをオープンソースとして公開しています。我々は、人口ベースのトレーニングで強力なサッカーAIを構築するためのガイダンスを提供し、ベンチマークのための様々な事前訓練されたポリシーをリリースする。
論文参考訳（メタデータ） (2023-05-16T14:18:53Z)
Centralized control for multi-agent RL in a complex Real-Time-Strategy game [0.0]
マルチエージェント強化学習(MARL)は、共有環境で共存する複数の学習エージェントの行動を研究する。 MARLはシングルエージェントRLよりも難しい。このプロジェクトは、Lux AI v2 KaggleコンペティションにRLを適用したエンドツーエンドエクスペリエンスを提供する。
論文参考訳（メタデータ） (2023-04-25T17:19:05Z)
Towards Human-Level Bimanual Dexterous Manipulation with Reinforcement Learning [73.92475751508452]
Bimanual Dexterous Hands Benchmark (Bi-DexHands) は、数十のバイマニュアル操作タスクと数千のターゲットオブジェクトを備えた2つのデキスタラスハンドを含むシミュレータである。 Bi-DexHandsのタスクは、認知科学の文献によると、人間の運動能力のレベルが異なるように設計されている。
論文参考訳（メタデータ） (2022-06-17T11:09:06Z)
TiKick: Toward Playing Multi-agent Football Full Games from Single-agent Demonstrations [31.596018856092513]
Tikickは、マルチエージェントのGoogle Research Footballのフルゲームを引き継ぐことができる、学習ベースのAIシステムである。私たちの知る限りでは、Tikickは、マルチエージェントのGoogle Research Footballのフルゲームを引き継ぐことができる、初めての学習ベースのAIシステムだ。
論文参考訳（メタデータ） (2021-10-09T08:34:58Z)
MALib: A Parallel Framework for Population-based Multi-agent Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。 PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文参考訳（メタデータ） (2021-06-05T03:27:08Z)
Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。 CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文参考訳（メタデータ） (2020-10-16T17:42:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。