論文の概要: JaxMARL: Multi-Agent RL Environments in JAX
- arxiv url: http://arxiv.org/abs/2311.10090v4
- Date: Tue, 19 Dec 2023 14:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 22:13:40.823071
- Title: JaxMARL: Multi-Agent RL Environments in JAX
- Title(参考訳): JaxMARL:JAXにおけるマルチエージェントRL環境
- Authors: Alexander Rutherford, Benjamin Ellis, Matteo Gallici, Jonathan Cook,
Andrei Lupu, Gardar Ingvarsson, Timon Willi, Akbir Khan, Christian Schroeder
de Witt, Alexandra Souly, Saptarashmi Bandyopadhyay, Mikayel Samvelyan, Minqi
Jiang, Robert Tjarko Lange, Shimon Whiteson, Bruno Lacerda, Nick Hawes, Tim
Rocktaschel, Chris Lu, Jakob Nicolaus Foerster
- Abstract要約: 我々は、使いやすさとGPU有効性を組み合わせた最初のオープンソースコードベースであるJaxMARLを紹介します。
私たちの実験によると、JAXベースのトレーニングパイプラインの実行は、既存のアプローチよりも最大で12500倍高速です。
また、人気のあるStarCraft Multi-Agent Challengeのベクトル化、単純化されたバージョンであるSMAXを紹介し、ベンチマークする。
- 参考スコア(独自算出の注目度): 107.7560737385902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks play an important role in the development of machine learning
algorithms. For example, research in reinforcement learning (RL) has been
heavily influenced by available environments and benchmarks. However, RL
environments are traditionally run on the CPU, limiting their scalability with
typical academic compute. Recent advancements in JAX have enabled the wider use
of hardware acceleration to overcome these computational hurdles, enabling
massively parallel RL training pipelines and environments. This is particularly
useful for multi-agent reinforcement learning (MARL) research. First of all,
multiple agents must be considered at each environment step, adding
computational burden, and secondly, the sample complexity is increased due to
non-stationarity, decentralised partial observability, or other MARL
challenges. In this paper, we present JaxMARL, the first open-source code base
that combines ease-of-use with GPU enabled efficiency, and supports a large
number of commonly used MARL environments as well as popular baseline
algorithms. When considering wall clock time, our experiments show that per-run
our JAX-based training pipeline is up to 12500x faster than existing
approaches. This enables efficient and thorough evaluations, with the potential
to alleviate the evaluation crisis of the field. We also introduce and
benchmark SMAX, a vectorised, simplified version of the popular StarCraft
Multi-Agent Challenge, which removes the need to run the StarCraft II game
engine. This not only enables GPU acceleration, but also provides a more
flexible MARL environment, unlocking the potential for self-play,
meta-learning, and other future applications in MARL. We provide code at
https://github.com/flairox/jaxmarl.
- Abstract(参考訳): ベンチマークは、機械学習アルゴリズムの開発において重要な役割を果たす。
例えば、強化学習(RL)の研究は利用可能な環境やベンチマークに大きく影響されている。
しかし、RL環境は伝統的にCPU上で動作しており、典型的な学術計算ではスケーラビリティを制限している。
JAXの最近の進歩は、これらの計算ハードルを克服するためにハードウェアアクセラレーションを広く利用し、非常に並列なRLトレーニングパイプラインと環境を可能にしました。
これは特にマルチエージェント強化学習(MARL)研究に有用である。
第一に、複数のエージェントを各環境ステップで考慮し、計算負荷を加算し、第二に、非定常性、分散部分観測性、その他のMARL課題によりサンプルの複雑さが増大する。
本稿では,使いやすさとGPU有効性を組み合わせた最初のオープンソースコードベースであるJaxMARLについて紹介し,多くの一般的なMARL環境と一般的なベースラインアルゴリズムをサポートする。
ウォールクロック時間を考慮すると、JAXベースのトレーニングパイプラインの実行は既存のアプローチよりも最大で12500倍高速です。
これにより、効率よく徹底的な評価が可能となり、分野の評価危機を緩和する可能性がある。
また、スタークラフト・マルチエージェントチャレンジのベクトル化された簡易バージョンであるSMAXを導入し、ベンチマークを行い、スタークラフトIIのゲームエンジンを走らせる必要をなくした。
これはGPUアクセラレーションを可能にするだけでなく、より柔軟なMARL環境を提供する。
コードはhttps://github.com/flairox/jaxmarlで提供します。
関連論文リスト
- XuanCe: A Comprehensive and Unified Deep Reinforcement Learning Library [18.603206638756056]
XuanCeは総合的に統合された深層強化学習(DRL)ライブラリである。
XuanCeは40以上の古典DRLとマルチエージェントDRLアルゴリズムを含む幅広い機能を提供している。
XuanCeはオープンソースで、https://agi-brain.com/agi-brain/xuance.gitでアクセスできる。
論文 参考訳(メタデータ) (2023-12-25T14:45:39Z) - BenchMARL: Benchmarking Multi-Agent Reinforcement Learning [8.882477545707982]
BenchMARLは、さまざまなアルゴリズム、モデル、環境をまたいで標準化されたベンチマークを可能にする最初のトレーニングライブラリである。
BenchMARLはTorchRLをバックエンドとして使用し、高いパフォーマンスと最先端の実装を維持できる。
論文 参考訳(メタデータ) (2023-12-03T18:15:58Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the
Ugly [66.19763977571114]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - SequeL: A Continual Learning Library in PyTorch and JAX [50.33956216274694]
SequeLは継続学習のためのライブラリで、PyTorchとJAXフレームワークの両方をサポートする。
それは、正規化ベースのアプローチ、リプレイベースのアプローチ、ハイブリッドアプローチを含む、幅広い連続学習アルゴリズムのための統一インターフェースを提供する。
私たちはSequeLをオープンソースライブラリとしてリリースし、研究者や開発者が自身の目的で簡単にライブラリを実験し拡張することができます。
論文 参考訳(メタデータ) (2023-04-21T10:00:22Z) - marl-jax: Multi-Agent Reinforcement Leaning Framework [7.064383217512461]
エージェントの社会的一般化を訓練・評価するためのマルチエージェント強化学習ソフトウェアであるmarl-jaxを提案する。
このパッケージは、マルチエージェント環境でエージェントの集団を訓練し、さまざまなバックグラウンドエージェントに一般化する能力を評価するために設計されている。
論文 参考訳(メタデータ) (2023-03-24T05:05:01Z) - EnvPool: A Highly Parallel Reinforcement Learning Environment Execution
Engine [69.47822647770542]
並列環境の実行はシステム全体の最も遅い部分であるが、ほとんど注意を払わない。
RL環境の並列化設計により,RL環境シミュレーションの高速化を実現した。
ハイエンドマシンでは、Atari環境での環境実行で毎秒100万フレーム、MuJoCo環境では毎秒300万フレームを達成する。
論文 参考訳(メタデータ) (2022-06-21T17:36:15Z) - From Multi-agent to Multi-robot: A Scalable Training and Evaluation
Platform for Multi-robot Reinforcement Learning [12.74238738538799]
マルチエージェント強化学習(MARL)は、過去数十年間、学術や産業から広く注目を集めてきた。
これらの手法が実際のシナリオ、特にマルチロボットシステムでどのように機能するかは未だ分かっていない。
本稿では,マルチロボット強化学習(MRRL)のためのスケーラブルなエミュレーションプラットフォームSMARTを提案する。
論文 参考訳(メタデータ) (2022-06-20T06:36:45Z) - ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文 参考訳(メタデータ) (2021-12-11T06:31:21Z) - TLeague: A Framework for Competitive Self-Play based Distributed
Multi-Agent Reinforcement Learning [28.795986840557475]
TLeagueは大規模なトレーニングを目標とし、いくつかのメインストリームMARLアルゴリズムを実装している。
我々は、TLeagueの効率性と有効性を示すために、StarCraft II、ViZDoom、Pommermanについて実験を行った。
論文 参考訳(メタデータ) (2020-11-25T17:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。