論文の概要: MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.07551v1
- Date: Sat, 5 Jun 2021 03:27:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-20 16:06:54.395989
- Title: MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning
- Title(参考訳): MALib: 人口ベースマルチエージェント強化学習のための並列フレームワーク
- Authors: Ming Zhou, Ziyu Wan, Hanjing Wang, Muning Wen, Runzhe Wu, Ying Wen,
Yaodong Yang, Weinan Zhang, Jun Wang
- Abstract要約: 人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
- 参考スコア(独自算出の注目度): 61.28547338576706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Population-based multi-agent reinforcement learning (PB-MARL) refers to the
series of methods nested with reinforcement learning (RL) algorithms, which
produces a self-generated sequence of tasks arising from the coupled population
dynamics. By leveraging auto-curricula to induce a population of distinct
emergent strategies, PB-MARL has achieved impressive success in tackling
multi-agent tasks. Despite remarkable prior arts of distributed RL frameworks,
PB-MARL poses new challenges for parallelizing the training frameworks due to
the additional complexity of multiple nested workloads between sampling,
training and evaluation involved with heterogeneous policy interactions. To
solve these problems, we present MALib, a scalable and efficient computing
framework for PB-MARL. Our framework is comprised of three key components: (1)
a centralized task dispatching model, which supports the self-generated tasks
and scalable training with heterogeneous policy combinations; (2) a programming
architecture named Actor-Evaluator-Learner, which achieves high parallelism for
both training and sampling, and meets the evaluation requirement of
auto-curriculum learning; (3) a higher-level abstraction of MARL training
paradigms, which enables efficient code reuse and flexible deployments on
different distributed computing paradigms. Experiments on a series of complex
tasks such as multi-agent Atari Games show that MALib achieves throughput
higher than 40K FPS on a single machine with $32$ CPU cores; 5x speedup than
RLlib and at least 3x speedup than OpenSpiel in multi-agent training tasks.
MALib is publicly available at https://github.com/sjtu-marl/malib.
- Abstract(参考訳): 集団型マルチエージェント強化学習(pb-marl)とは、集団ダイナミクスから発生するタスクの自己生成列を生成する強化学習(rl)アルゴリズムをネスト化した一連の手法を指す。
PB-MARLは、オートキュリキュラを利用して、異なる創発的戦略の集団を誘導することで、マルチエージェントタスクに対処することに成功した。
分散rlフレームワークの卓越した先行技術にもかかわらず、pb-marlは異種ポリシー間相互作用に関わるサンプリング、トレーニング、評価の間の複数のネストされたワークロードが複雑になるため、トレーニングフレームワークの並列化に新たな課題を提起する。
これらの問題を解決するため,PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
Our framework is comprised of three key components: (1) a centralized task dispatching model, which supports the self-generated tasks and scalable training with heterogeneous policy combinations; (2) a programming architecture named Actor-Evaluator-Learner, which achieves high parallelism for both training and sampling, and meets the evaluation requirement of auto-curriculum learning; (3) a higher-level abstraction of MARL training paradigms, which enables efficient code reuse and flexible deployments on different distributed computing paradigms.
マルチエージェントatariゲームのような複雑なタスクの実験では、マルチエージェントトレーニングタスクにおいて、malibは1台のマシンで32ドルのcpuコアを持つ40k fps以上のスループットを達成し、rllibより5倍のスピードアップとopenspielよりも3倍のスピードアップを達成している。
MALibはhttps://github.com/sjtu-marl/malib.comで公開されている。
関連論文リスト
- O-MAPL: Offline Multi-agent Preference Learning [5.4482836906033585]
実演から報酬関数を推定することは強化学習(RL)の重要な課題である
協調型MARLのためのエンドツーエンドの嗜好に基づく新しい学習フレームワークを提案する。
我々のアルゴリズムは様々なタスクにまたがって既存の手法より優れている。
論文 参考訳(メタデータ) (2025-01-31T08:08:20Z) - Multi-task Representation Learning for Mixed Integer Linear Programming [13.106799330951842]
本稿では,ML誘導MILP問題解決のためのマルチタスク学習フレームワークについて紹介する。
我々は,マルチタスク学習モデルが同一分布内の特殊モデルと類似して動作することを示す。
これは、問題のサイズやタスクの一般化において、それらを著しく上回る。
論文 参考訳(メタデータ) (2024-12-18T23:33:32Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [64.13803241218886]
推論問題に対するマルチエージェントLLMトレーニング(MALT)に向けた第一歩を提示する。
提案手法では,ヘテロジニアスLSMが割り当てられた逐次的マルチエージェント構成を用いる。
我々は,MATH,GSM8k,CQAにまたがるアプローチを評価し,MALT on Llama 3.1 8Bモデルでそれぞれ14.14%,7.12%,9.40%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。
分散ポリシと集中型コントローラの両方として機能する。
実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - MARLlib: A Scalable and Efficient Multi-agent Reinforcement Learning
Library [82.77446613763809]
本稿では,マルチエージェントタスクとアルゴリズムの組み合わせを高速に開発するためのライブラリであるMARLlibを紹介する。
MARLlibは、マルチエージェントタスクとアルゴリズムの学習過程を効果的に切り離すことができる。
ライブラリのソースコードはGitHubで公開されている。
論文 参考訳(メタデータ) (2022-10-11T03:11:12Z) - Containerized Distributed Value-Based Multi-Agent Reinforcement Learning [18.79371121484969]
コンテナ化されたマルチエージェント強化学習フレームワークを提案する。
本誌のやり方は、Google Research Footballのフルゲーム5.v_5$の難題を解く最初の方法だ。
StarCraft IIマイクロマネジメントベンチマークでは、最先端の非分散MARLアルゴリズムと比較して4-18times$よい結果が得られる。
論文 参考訳(メタデータ) (2021-10-15T15:54:06Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。