論文の概要: Mava: a research framework for distributed multi-agent reinforcement
learning
- arxiv url: http://arxiv.org/abs/2107.01460v1
- Date: Sat, 3 Jul 2021 16:23:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 07:34:14.690196
- Title: Mava: a research framework for distributed multi-agent reinforcement
learning
- Title(参考訳): Mava:分散マルチエージェント強化学習のための研究フレームワーク
- Authors: Arnu Pretorius, Kale-ab Tessera, Andries P. Smit, Claude Formanek, St
John Grimbly, Kevin Eloff, Siphelele Danisa, Lawrence Francis, Jonathan
Shock, Herman Kamper, Willie Brink, Herman Engelbrecht, Alexandre Laterre,
Karim Beguir
- Abstract要約: Mavaはスケーラブルなマルチエージェント強化学習システムを構築するためのフレームワークである。
DeepMindのAcme citephoffman 2020acme上に構築されており、既存のシングルエージェントRLコンポーネントと統合されており、大きなメリットがある。
MARLのベースラインシステムは、すでにMavaで実装されている。
- 参考スコア(独自算出の注目度): 62.858425623166475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Breakthrough advances in reinforcement learning (RL) research have led to a
surge in the development and application of RL. To support the field and its
rapid growth, several frameworks have emerged that aim to help the community
more easily build effective and scalable agents. However, very few of these
frameworks exclusively support multi-agent RL (MARL), an increasingly active
field in itself, concerned with decentralised decision-making problems. In this
work, we attempt to fill this gap by presenting Mava: a research framework
specifically designed for building scalable MARL systems. Mava provides useful
components, abstractions, utilities and tools for MARL and allows for simple
scaling for multi-process system training and execution, while providing a high
level of flexibility and composability. Mava is built on top of DeepMind's Acme
\citep{hoffman2020acme}, and therefore integrates with, and greatly benefits
from, a wide range of already existing single-agent RL components made
available in Acme. Several MARL baseline systems have already been implemented
in Mava. These implementations serve as examples showcasing Mava's reusable
features, such as interchangeable system architectures, communication and
mixing modules. Furthermore, these implementations allow existing MARL
algorithms to be easily reproduced and extended. We provide experimental
results for these implementations on a wide range of multi-agent environments
and highlight the benefits of distributed system training.
- Abstract(参考訳): 強化学習(RL)研究におけるブレークスルーの進歩は、RLの開発と応用の急激な増加につながった。
この分野と急速な成長をサポートするために、コミュニティがより効果的でスケーラブルなエージェントを構築するのを支援するために、いくつかのフレームワークが登場した。
しかし、これらのフレームワークのごく一部は、分散化された意思決定問題に関わる活動的な分野であるマルチエージェントRL(MARL)のみをサポートしている。
本稿では,スケーラブルなmarlシステムの構築に特化した研究フレームワークであるmavaを提案することで,このギャップを埋めようとしている。
MavaはMARLの有用なコンポーネント、抽象化、ユーティリティ、ツールを提供し、マルチプロセスシステムのトレーニングと実行の簡単なスケーリングを可能にし、高いレベルの柔軟性と構成性を提供する。
MavaはDeepMindのAcme \citep{hoffman2020acme}上に構築されており、Acmeで利用可能な既存のシングルエージェントのRLコンポーネントと統合され、大きなメリットがある。
MARLのベースラインシステムは、すでにMavaで実装されている。
これらの実装は、交換可能なシステムアーキテクチャ、通信および混合モジュールなど、Mavaの再利用可能な機能を示す例として機能する。
さらに、これらの実装により既存のMARLアルゴリズムを容易に再現および拡張できる。
我々は,マルチエージェント環境の幅広い実装に対して実験結果を提供し,分散システムトレーニングの利点を強調する。
関連論文リスト
- Mini Honor of Kings: A Lightweight Environment for Multi-Agent Reinforcement Learning [47.06486281116165]
ゲームはマルチエージェント強化学習(MARL)の研究環境として広く利用されている
人気のモバイルゲーム「Honor of Kings」用の地図エディタを初めて公開し、軽量環境「Mini HoK」を設計する。
Mini HoKは非常に効率的で、実験をパーソナルPCやラップトップ上で行うことができるが、既存のMARLアルゴリズムには十分な課題がある。
論文 参考訳(メタデータ) (2024-06-06T11:42:33Z) - BenchMARL: Benchmarking Multi-Agent Reinforcement Learning [8.130948896195878]
BenchMARLは、さまざまなアルゴリズム、モデル、環境をまたいで標準化されたベンチマークを可能にする最初のトレーニングライブラリである。
BenchMARLはTorchRLをバックエンドとして使用し、高いパフォーマンスと最先端の実装を維持できる。
論文 参考訳(メタデータ) (2023-12-03T18:15:58Z) - JaxMARL: Multi-Agent RL Environments and Algorithms in JAX [105.343918678781]
我々は、GPU対応の効率と多くの一般的なMARL環境のサポートを組み合わせた、最初のオープンソースPythonベースのライブラリであるJaxMARLを紹介します。
我々の実験は、壁時計時間の観点から、JAXベースのトレーニングパイプラインが既存のアプローチの約14倍高速であることを示している。
また、人気の高いStarCraft Multi-Agent ChallengeのJAXベースの近似的な再実装であるSMAXを紹介し、ベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T18:58:43Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - MARLlib: A Scalable and Efficient Multi-agent Reinforcement Learning
Library [82.77446613763809]
本稿では,マルチエージェントタスクとアルゴリズムの組み合わせを高速に開発するためのライブラリであるMARLlibを紹介する。
MARLlibは、マルチエージェントタスクとアルゴリズムの学習過程を効果的に切り離すことができる。
ライブラリのソースコードはGitHubで公開されている。
論文 参考訳(メタデータ) (2022-10-11T03:11:12Z) - Towards a Standardised Performance Evaluation Protocol for Cooperative
MARL [2.2977300225306583]
マルチエージェント強化学習(MARL)は,分散型意思決定問題を大規模に解く上で有用な手法である。
本研究は,MARLにおける大規模研究機関にまたがる評価手法に焦点をあてて,この迅速な開発についてより詳しく考察する。
協調型MARLのための標準化された性能評価プロトコルを提案する。
論文 参考訳(メタデータ) (2022-09-21T16:40:03Z) - Benchopt: Reproducible, efficient and collaborative optimization
benchmarks [67.29240500171532]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。
Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文 参考訳(メタデータ) (2022-06-27T16:19:24Z) - From Multi-agent to Multi-robot: A Scalable Training and Evaluation
Platform for Multi-robot Reinforcement Learning [12.74238738538799]
マルチエージェント強化学習(MARL)は、過去数十年間、学術や産業から広く注目を集めてきた。
これらの手法が実際のシナリオ、特にマルチロボットシステムでどのように機能するかは未だ分かっていない。
本稿では,マルチロボット強化学習(MRRL)のためのスケーラブルなエミュレーションプラットフォームSMARTを提案する。
論文 参考訳(メタデータ) (2022-06-20T06:36:45Z) - PyRelationAL: A Library for Active Learning Research and Development [0.11545092788508224]
PyRelationALは、アクティブラーニング(AL)研究のためのオープンソースライブラリである。
既存の文献に基づいたベンチマークデータセットとALタスク設定へのアクセスを提供する。
我々は、ベンチマークデータセットのPyRelationALコレクションの実験を行い、ALが提供できる相当な経済状況を示す。
論文 参考訳(メタデータ) (2022-05-23T08:21:21Z) - Memory-Based Optimization Methods for Model-Agnostic Meta-Learning and
Personalized Federated Learning [56.17603785248675]
モデルに依存しないメタラーニング (MAML) が人気のある研究分野となっている。
既存のMAMLアルゴリズムは、イテレーション毎にメタモデルを更新するためにいくつかのタスクとデータポイントをサンプリングすることで、エピソードのアイデアに依存している。
本稿では,MAMLのメモリベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-09T08:47:58Z) - FedML: A Research Library and Benchmark for Federated Machine Learning [55.09054608875831]
フェデレート・ラーニング(Federated Learning, FL)は、機械学習の分野で急速に成長している研究分野である。
既存のFLライブラリは多様なアルゴリズム開発を適切にサポートできない。
FLアルゴリズムの開発と公正な性能比較を容易にするための,オープンな研究ライブラリとベンチマークであるFedMLを紹介する。
論文 参考訳(メタデータ) (2020-07-27T13:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。