論文の概要: JaxMARL: Multi-Agent RL Environments and Algorithms in JAX
- arxiv url: http://arxiv.org/abs/2311.10090v5
- Date: Sat, 02 Nov 2024 22:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:41:40.459264
- Title: JaxMARL: Multi-Agent RL Environments and Algorithms in JAX
- Title(参考訳): JaxMARL:JAXにおけるマルチエージェントRL環境とアルゴリズム
- Authors: Alexander Rutherford, Benjamin Ellis, Matteo Gallici, Jonathan Cook, Andrei Lupu, Gardar Ingvarsson, Timon Willi, Ravi Hammond, Akbir Khan, Christian Schroeder de Witt, Alexandra Souly, Saptarashmi Bandyopadhyay, Mikayel Samvelyan, Minqi Jiang, Robert Tjarko Lange, Shimon Whiteson, Bruno Lacerda, Nick Hawes, Tim Rocktaschel, Chris Lu, Jakob Nicolaus Foerster,
- Abstract要約: 我々は、GPU対応の効率と多くの一般的なMARL環境のサポートを組み合わせた、最初のオープンソースPythonベースのライブラリであるJaxMARLを紹介します。
我々の実験は、壁時計時間の観点から、JAXベースのトレーニングパイプラインが既存のアプローチの約14倍高速であることを示している。
また、人気の高いStarCraft Multi-Agent ChallengeのJAXベースの近似的な再実装であるSMAXを紹介し、ベンチマークする。
- 参考スコア(独自算出の注目度): 105.343918678781
- License:
- Abstract: Benchmarks are crucial in the development of machine learning algorithms, with available environments significantly influencing reinforcement learning (RL) research. Traditionally, RL environments run on the CPU, which limits their scalability with typical academic compute. However, recent advancements in JAX have enabled the wider use of hardware acceleration, enabling massively parallel RL training pipelines and environments. While this has been successfully applied to single-agent RL, it has not yet been widely adopted for multi-agent scenarios. In this paper, we present JaxMARL, the first open-source, Python-based library that combines GPU-enabled efficiency with support for a large number of commonly used MARL environments and popular baseline algorithms. Our experiments show that, in terms of wall clock time, our JAX-based training pipeline is around 14 times faster than existing approaches, and up to 12500x when multiple training runs are vectorized. This enables efficient and thorough evaluations, potentially alleviating the evaluation crisis in the field. We also introduce and benchmark SMAX, a JAX-based approximate reimplementation of the popular StarCraft Multi-Agent Challenge, which removes the need to run the StarCraft II game engine. This not only enables GPU acceleration, but also provides a more flexible MARL environment, unlocking the potential for self-play, meta-learning, and other future applications in MARL. The code is available at https://github.com/flairox/jaxmarl.
- Abstract(参考訳): ベンチマークは機械学習アルゴリズムの開発において不可欠であり、利用可能な環境は強化学習(RL)研究に大きな影響を及ぼす。
従来、RL環境はCPU上で動作するため、典型的な学術計算ではスケーラビリティが制限される。
しかし、最近のJAXの進歩は、ハードウェアアクセラレーションをより広く利用し、非常に並列なRLトレーニングパイプラインと環境を可能にしている。
これはシングルエージェントのRLに適用されているが、マルチエージェントのシナリオではまだ広く採用されていない。
本稿では、GPU対応の効率性と、多くの一般的なMARL環境と一般的なベースラインアルゴリズムのサポートを組み合わせた、最初のオープンソースPythonベースのライブラリであるJaxMARLについて述べる。
我々の実験では、壁時計の時間に関して、JAXベースのトレーニングパイプラインは既存のアプローチの約14倍高速で、複数のトレーニング実行がベクトル化されている場合、最大12500倍高速であることがわかった。
これにより、効率的かつ徹底的な評価が可能となり、この分野における評価危機を軽減できる可能性がある。
また、SMAXは、人気の高いStarCraft Multi-Agent Challengeの再実装であり、StarCraft IIのゲームエンジンを走らせる必要がなくなる。
これはGPUアクセラレーションを可能にするだけでなく、より柔軟なMARL環境を提供する。
コードはhttps://github.com/flairox/jaxmarl.comで公開されている。
関連論文リスト
- NAVIX: Scaling MiniGrid Environments with JAX [17.944645332888335]
JAX における MiniGrid の再実装である NAVIX を紹介します。
NAVIXはバッチモードで20000倍以上の速度向上を実現し、Nvidia A100 80 GBで最大2048エージェントを並行してサポートする。
これは実験時間を1週間から15分に短縮し、より高速な設計とよりスケーラブルなRLモデル開発を促進する。
論文 参考訳(メタデータ) (2024-07-28T04:39:18Z) - XuanCe: A Comprehensive and Unified Deep Reinforcement Learning Library [18.603206638756056]
XuanCeは総合的に統合された深層強化学習(DRL)ライブラリである。
XuanCeは40以上の古典DRLとマルチエージェントDRLアルゴリズムを含む幅広い機能を提供している。
XuanCeはオープンソースで、https://agi-brain.com/agi-brain/xuance.gitでアクセスできる。
論文 参考訳(メタデータ) (2023-12-25T14:45:39Z) - JaxPruner: A concise library for sparsity research [46.153423603424]
JaxPrunerはスパースニューラルネットワーク研究のためのオープンソースライブラリである。
メモリとレイテンシのオーバーヘッドを最小限に抑えながら、一般的なプルーニングとスパーストレーニングアルゴリズムを実装している。
論文 参考訳(メタデータ) (2023-04-27T10:45:30Z) - SequeL: A Continual Learning Library in PyTorch and JAX [50.33956216274694]
SequeLは継続学習のためのライブラリで、PyTorchとJAXフレームワークの両方をサポートする。
それは、正規化ベースのアプローチ、リプレイベースのアプローチ、ハイブリッドアプローチを含む、幅広い連続学習アルゴリズムのための統一インターフェースを提供する。
私たちはSequeLをオープンソースライブラリとしてリリースし、研究者や開発者が自身の目的で簡単にライブラリを実験し拡張することができます。
論文 参考訳(メタデータ) (2023-04-21T10:00:22Z) - marl-jax: Multi-Agent Reinforcement Leaning Framework [7.064383217512461]
エージェントの社会的一般化を訓練・評価するためのマルチエージェント強化学習ソフトウェアであるmarl-jaxを提案する。
このパッケージは、マルチエージェント環境でエージェントの集団を訓練し、さまざまなバックグラウンドエージェントに一般化する能力を評価するために設計されている。
論文 参考訳(メタデータ) (2023-03-24T05:05:01Z) - Going faster to see further: GPU-accelerated value iteration and
simulation for perishable inventory control using JAX [5.856836693166898]
我々はPythonライブラリJAXを使って、ハイレベルなAPIで基礎となるMarkov決定プロセスの反復とシミュレータを実装しています。
提案手法は,従来は実現不可能あるいは現実的と考えられていた設定に値反復の使用を拡張できる。
我々は、複数の候補ポリシーパラメータの並列評価を可能にするJAXのシミュレーション最適化を用いて、最適補充ポリシーの性能をポリシーと比較した。
論文 参考訳(メタデータ) (2023-03-19T14:20:44Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - EnvPool: A Highly Parallel Reinforcement Learning Environment Execution
Engine [69.47822647770542]
並列環境の実行はシステム全体の最も遅い部分であるが、ほとんど注意を払わない。
RL環境の並列化設計により,RL環境シミュレーションの高速化を実現した。
ハイエンドマシンでは、Atari環境での環境実行で毎秒100万フレーム、MuJoCo環境では毎秒300万フレームを達成する。
論文 参考訳(メタデータ) (2022-06-21T17:36:15Z) - ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文 参考訳(メタデータ) (2021-12-11T06:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。