Fugu-MT 論文翻訳(概要): MALib: A Parallel Framework for Population-based Multi-agent Reinforcement Learning

論文の概要: MALib: A Parallel Framework for Population-based Multi-agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2106.07551v1
Date: Sat, 5 Jun 2021 03:27:08 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-20 16:06:54.395989
Title: MALib: A Parallel Framework for Population-based Multi-agent Reinforcement Learning
Title（参考訳）: MALib: 人口ベースマルチエージェント強化学習のための並列フレームワーク
Authors: Ming Zhou, Ziyu Wan, Hanjing Wang, Muning Wen, Runzhe Wu, Ying Wen, Yaodong Yang, Weinan Zhang, Jun Wang
Abstract要約: 人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。 PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
参考スコア（独自算出の注目度）: 61.28547338576706
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Population-based multi-agent reinforcement learning (PB-MARL) refers to the series of methods nested with reinforcement learning (RL) algorithms, which produces a self-generated sequence of tasks arising from the coupled population dynamics. By leveraging auto-curricula to induce a population of distinct emergent strategies, PB-MARL has achieved impressive success in tackling multi-agent tasks. Despite remarkable prior arts of distributed RL frameworks, PB-MARL poses new challenges for parallelizing the training frameworks due to the additional complexity of multiple nested workloads between sampling, training and evaluation involved with heterogeneous policy interactions. To solve these problems, we present MALib, a scalable and efficient computing framework for PB-MARL. Our framework is comprised of three key components: (1) a centralized task dispatching model, which supports the self-generated tasks and scalable training with heterogeneous policy combinations; (2) a programming architecture named Actor-Evaluator-Learner, which achieves high parallelism for both training and sampling, and meets the evaluation requirement of auto-curriculum learning; (3) a higher-level abstraction of MARL training paradigms, which enables efficient code reuse and flexible deployments on different distributed computing paradigms. Experiments on a series of complex tasks such as multi-agent Atari Games show that MALib achieves throughput higher than 40K FPS on a single machine with $32$ CPU cores; 5x speedup than RLlib and at least 3x speedup than OpenSpiel in multi-agent training tasks. MALib is publicly available at https://github.com/sjtu-marl/malib.
Abstract（参考訳）: 集団型マルチエージェント強化学習(pb-marl)とは、集団ダイナミクスから発生するタスクの自己生成列を生成する強化学習(rl)アルゴリズムをネスト化した一連の手法を指す。 PB-MARLは、オートキュリキュラを利用して、異なる創発的戦略の集団を誘導することで、マルチエージェントタスクに対処することに成功した。分散rlフレームワークの卓越した先行技術にもかかわらず、pb-marlは異種ポリシー間相互作用に関わるサンプリング、トレーニング、評価の間の複数のネストされたワークロードが複雑になるため、トレーニングフレームワークの並列化に新たな課題を提起する。これらの問題を解決するため,PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。 Our framework is comprised of three key components: (1) a centralized task dispatching model, which supports the self-generated tasks and scalable training with heterogeneous policy combinations; (2) a programming architecture named Actor-Evaluator-Learner, which achieves high parallelism for both training and sampling, and meets the evaluation requirement of auto-curriculum learning; (3) a higher-level abstraction of MARL training paradigms, which enables efficient code reuse and flexible deployments on different distributed computing paradigms. マルチエージェントatariゲームのような複雑なタスクの実験では、マルチエージェントトレーニングタスクにおいて、malibは1台のマシンで32ドルのcpuコアを持つ40k fps以上のスループットを達成し、rllibより5倍のスピードアップとopenspielよりも3倍のスピードアップを達成している。 MALibはhttps://github.com/sjtu-marl/malib.comで公開されている。

関連論文リスト

Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
O-MAPL: Offline Multi-agent Preference Learning [5.4482836906033585]
実演から報酬関数を推定することは強化学習(RL)の重要な課題である協調型MARLのためのエンドツーエンドの嗜好に基づく新しい学習フレームワークを提案する。我々のアルゴリズムは様々なタスクにまたがって既存の手法より優れている。
論文参考訳（メタデータ） (2025-01-31T08:08:20Z)
Multi-task Representation Learning for Mixed Integer Linear Programming [13.106799330951842]
本稿では,ML誘導MILP問題解決のためのマルチタスク学習フレームワークについて紹介する。我々は,マルチタスク学習モデルが同一分布内の特殊モデルと類似して動作することを示す。これは、問題のサイズやタスクの一般化において、それらを著しく上回る。
論文参考訳（メタデータ） (2024-12-18T23:33:32Z)
PPS-QMIX: Periodically Parameter Sharing for Accelerating Convergence of Multi-Agent Reinforcement Learning [20.746383793882984]
マルチエージェント強化学習(MARL)の訓練は時間を要するプロセスである。 1つの欠点は、MARLの各エージェントの戦略が独立しているが、実際に協力していることである。本稿では,A-PPS(Average Sharing),Reward-Scalability Periodically,Partial Personalized Periodicallyという3つの簡単なアプローチを提案する。
論文参考訳（メタデータ） (2024-03-05T03:59:01Z)
MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文参考訳（メタデータ） (2023-05-27T02:14:09Z)
Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文参考訳（メタデータ） (2023-03-24T15:12:28Z)
Multipath agents for modular multitask ML systems [2.579908688646812]
提案した研究は、複数のメソッドを異なるエージェントとして定義できる新しい方法論を紹介した。エージェントは、与えられたタスクに対するMLモデルの生成と改善のために協力し、競争することができる。
論文参考訳（メタデータ） (2023-02-06T11:57:45Z)
MARLlib: A Scalable and Efficient Multi-agent Reinforcement Learning Library [82.77446613763809]
本稿では,マルチエージェントタスクとアルゴリズムの組み合わせを高速に開発するためのライブラリであるMARLlibを紹介する。 MARLlibは、マルチエージェントタスクとアルゴリズムの学習過程を効果的に切り離すことができる。ライブラリのソースコードはGitHubで公開されている。
論文参考訳（メタデータ） (2022-10-11T03:11:12Z)
Efficient Distributed Framework for Collaborative Multi-Agent Reinforcement Learning [17.57163419315147]
不完全な情報環境に対するマルチエージェント強化学習は研究者から広く注目を集めている。不安定なモデルイテレーションや訓練効率の低下など、マルチエージェント強化学習には依然としていくつかの問題がある。本稿では,アクター-ワーク-ラーナーアーキテクチャに基づく分散MARLフレームワークを設計する。
論文参考訳（メタデータ） (2022-05-11T03:12:49Z)
Containerized Distributed Value-Based Multi-Agent Reinforcement Learning [18.79371121484969]
コンテナ化されたマルチエージェント強化学習フレームワークを提案する。本誌のやり方は、Google Research Footballのフルゲーム5.v_5$の難題を解く最初の方法だ。 StarCraft IIマイクロマネジメントベンチマークでは、最先端の非分散MARLアルゴリズムと比較して4-18times$よい結果が得られる。
論文参考訳（メタデータ） (2021-10-15T15:54:06Z)
UPDeT: Universal Multi-agent Reinforcement Learning via Policy Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文参考訳（メタデータ） (2021-01-20T07:24:24Z)
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文参考訳（メタデータ） (2020-04-17T14:56:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。