Fugu-MT 論文翻訳(概要): JaxMARL: Multi-Agent RL Environments in JAX

論文の概要: JaxMARL: Multi-Agent RL Environments in JAX

arxiv url: http://arxiv.org/abs/2311.10090v4
Date: Tue, 19 Dec 2023 14:55:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 22:13:40.823071
Title: JaxMARL: Multi-Agent RL Environments in JAX
Title（参考訳）: JaxMARL:JAXにおけるマルチエージェントRL環境
Authors: Alexander Rutherford, Benjamin Ellis, Matteo Gallici, Jonathan Cook, Andrei Lupu, Gardar Ingvarsson, Timon Willi, Akbir Khan, Christian Schroeder de Witt, Alexandra Souly, Saptarashmi Bandyopadhyay, Mikayel Samvelyan, Minqi Jiang, Robert Tjarko Lange, Shimon Whiteson, Bruno Lacerda, Nick Hawes, Tim Rocktaschel, Chris Lu, Jakob Nicolaus Foerster
Abstract要約: 我々は、使いやすさとGPU有効性を組み合わせた最初のオープンソースコードベースであるJaxMARLを紹介します。私たちの実験によると、JAXベースのトレーニングパイプラインの実行は、既存のアプローチよりも最大で12500倍高速です。また、人気のあるStarCraft Multi-Agent Challengeのベクトル化、単純化されたバージョンであるSMAXを紹介し、ベンチマークする。
参考スコア（独自算出の注目度）: 107.7560737385902
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Benchmarks play an important role in the development of machine learning algorithms. For example, research in reinforcement learning (RL) has been heavily influenced by available environments and benchmarks. However, RL environments are traditionally run on the CPU, limiting their scalability with typical academic compute. Recent advancements in JAX have enabled the wider use of hardware acceleration to overcome these computational hurdles, enabling massively parallel RL training pipelines and environments. This is particularly useful for multi-agent reinforcement learning (MARL) research. First of all, multiple agents must be considered at each environment step, adding computational burden, and secondly, the sample complexity is increased due to non-stationarity, decentralised partial observability, or other MARL challenges. In this paper, we present JaxMARL, the first open-source code base that combines ease-of-use with GPU enabled efficiency, and supports a large number of commonly used MARL environments as well as popular baseline algorithms. When considering wall clock time, our experiments show that per-run our JAX-based training pipeline is up to 12500x faster than existing approaches. This enables efficient and thorough evaluations, with the potential to alleviate the evaluation crisis of the field. We also introduce and benchmark SMAX, a vectorised, simplified version of the popular StarCraft Multi-Agent Challenge, which removes the need to run the StarCraft II game engine. This not only enables GPU acceleration, but also provides a more flexible MARL environment, unlocking the potential for self-play, meta-learning, and other future applications in MARL. We provide code at https://github.com/flairox/jaxmarl.
Abstract（参考訳）: ベンチマークは、機械学習アルゴリズムの開発において重要な役割を果たす。例えば、強化学習(RL)の研究は利用可能な環境やベンチマークに大きく影響されている。しかし、RL環境は伝統的にCPU上で動作しており、典型的な学術計算ではスケーラビリティを制限している。 JAXの最近の進歩は、これらの計算ハードルを克服するためにハードウェアアクセラレーションを広く利用し、非常に並列なRLトレーニングパイプラインと環境を可能にしました。これは特にマルチエージェント強化学習(MARL)研究に有用である。第一に、複数のエージェントを各環境ステップで考慮し、計算負荷を加算し、第二に、非定常性、分散部分観測性、その他のMARL課題によりサンプルの複雑さが増大する。本稿では,使いやすさとGPU有効性を組み合わせた最初のオープンソースコードベースであるJaxMARLについて紹介し,多くの一般的なMARL環境と一般的なベースラインアルゴリズムをサポートする。ウォールクロック時間を考慮すると、JAXベースのトレーニングパイプラインの実行は既存のアプローチよりも最大で12500倍高速です。これにより、効率よく徹底的な評価が可能となり、分野の評価危機を緩和する可能性がある。また、スタークラフト・マルチエージェントチャレンジのベクトル化された簡易バージョンであるSMAXを導入し、ベンチマークを行い、スタークラフトIIのゲームエンジンを走らせる必要をなくした。これはGPUアクセラレーションを可能にするだけでなく、より柔軟なMARL環境を提供する。コードはhttps://github.com/flairox/jaxmarlで提供します。

関連論文リスト

Octax: Accelerated CHIP-8 Arcade Environments for Reinforcement Learning in JAX [0.0]
強化学習(Reinforcement Learning, RL)の研究には、多様で困難な環境が必要である。 JAXで実装された古典的なアーケードゲーム環境の高性能スイートであるOcaxを紹介します。
論文参考訳（メタデータ） (2025-10-02T07:56:47Z)
NAVIX: Scaling MiniGrid Environments with JAX [17.944645332888335]
JAX における MiniGrid の再実装である NAVIX を紹介します。 NAVIXはバッチモードで20000倍以上の速度向上を実現し、Nvidia A100 80 GBで最大2048エージェントを並行してサポートする。これは実験時間を1週間から15分に短縮し、より高速な設計とよりスケーラブルなRLモデル開発を促進する。
論文参考訳（メタデータ） (2024-07-28T04:39:18Z)
XuanCe: A Comprehensive and Unified Deep Reinforcement Learning Library [18.603206638756056]
XuanCeは総合的に統合された深層強化学習(DRL)ライブラリである。 XuanCeは40以上の古典DRLとマルチエージェントDRLアルゴリズムを含む幅広い機能を提供している。 XuanCeはオープンソースで、https://agi-brain.com/agi-brain/xuance.gitでアクセスできる。
論文参考訳（メタデータ） (2023-12-25T14:45:39Z)
JaxPruner: A concise library for sparsity research [46.153423603424]
JaxPrunerはスパースニューラルネットワーク研究のためのオープンソースライブラリである。メモリとレイテンシのオーバーヘッドを最小限に抑えながら、一般的なプルーニングとスパーストレーニングアルゴリズムを実装している。
論文参考訳（メタデータ） (2023-04-27T10:45:30Z)
SequeL: A Continual Learning Library in PyTorch and JAX [50.33956216274694]
SequeLは継続学習のためのライブラリで、PyTorchとJAXフレームワークの両方をサポートする。それは、正規化ベースのアプローチ、リプレイベースのアプローチ、ハイブリッドアプローチを含む、幅広い連続学習アルゴリズムのための統一インターフェースを提供する。私たちはSequeLをオープンソースライブラリとしてリリースし、研究者や開発者が自身の目的で簡単にライブラリを実験し拡張することができます。
論文参考訳（メタデータ） (2023-04-21T10:00:22Z)
marl-jax: Multi-Agent Reinforcement Leaning Framework [7.064383217512461]
エージェントの社会的一般化を訓練・評価するためのマルチエージェント強化学習ソフトウェアであるmarl-jaxを提案する。このパッケージは、マルチエージェント環境でエージェントの集団を訓練し、さまざまなバックグラウンドエージェントに一般化する能力を評価するために設計されている。
論文参考訳（メタデータ） (2023-03-24T05:05:01Z)
Going faster to see further: GPU-accelerated value iteration and simulation for perishable inventory control using JAX [5.856836693166898]
我々はPythonライブラリJAXを使って、ハイレベルなAPIで基礎となるMarkov決定プロセスの反復とシミュレータを実装しています。提案手法は,従来は実現不可能あるいは現実的と考えられていた設定に値反復の使用を拡張できる。我々は、複数の候補ポリシーパラメータの並列評価を可能にするJAXのシミュレーション最適化を用いて、最適補充ポリシーの性能をポリシーと比較した。
論文参考訳（メタデータ） (2023-03-19T14:20:44Z)
FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。 1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。 HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文参考訳（メタデータ） (2023-03-13T05:19:28Z)
EnvPool: A Highly Parallel Reinforcement Learning Environment Execution Engine [69.47822647770542]
並列環境の実行はシステム全体の最も遅い部分であるが、ほとんど注意を払わない。 RL環境の並列化設計により,RL環境シミュレーションの高速化を実現した。ハイエンドマシンでは、Atari環境での環境実行で毎秒100万フレーム、MuJoCo環境では毎秒300万フレームを達成する。
論文参考訳（メタデータ） (2022-06-21T17:36:15Z)
ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文参考訳（メタデータ） (2021-12-11T06:31:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。