論文の概要: Jumanji: a Diverse Suite of Scalable Reinforcement Learning Environments
in JAX
- arxiv url: http://arxiv.org/abs/2306.09884v1
- Date: Fri, 16 Jun 2023 14:52:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 13:32:53.474769
- Title: Jumanji: a Diverse Suite of Scalable Reinforcement Learning Environments
in JAX
- Title(参考訳): Jumanji: JAXにおけるスケーラブルな強化学習環境の多種多様なスイート
- Authors: Cl\'ement Bonnet, Daniel Luo, Donal Byrne, Shikha Surana, Vincent
Coyette, Paul Duckworth, Laurence I. Midgley, Tristan Kalloniatis, Sasha
Abramowitz, Cemlyn N. Waters, Andries P. Smit, Nathan Grinsztajn, Ulrich A.
Mbou Sob, Omayma Mahjoub, Elshadai Tegegn, Mohamed A. Mimouni, Raphael Boige,
Ruan de Kock, Daniel Furelos-Blanco, Victor Le, Arnu Pretorius, Alexandre
Laterre
- Abstract要約: 多様な強化学習環境のスイートであるJumanjiを紹介します。
Jumanjiは、RL環境のスピード、適応性、拡張性のための新しい標準を設定することを目指している。
- 参考スコア(独自算出の注目度): 41.93687760332855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-source reinforcement learning (RL) environments have played a crucial
role in driving progress in the development of AI algorithms. In modern RL
research, there is a need for simulated environments that are performant,
scalable, and modular to enable their utilization in a wider range of potential
real-world applications. Therefore, we present Jumanji, a suite of diverse RL
environments specifically designed to be fast, flexible, and scalable. Jumanji
provides a suite of environments focusing on combinatorial problems frequently
encountered in industry, as well as challenging general decision-making tasks.
By leveraging the efficiency of JAX and hardware accelerators like GPUs and
TPUs, Jumanji enables rapid iteration of research ideas and large-scale
experimentation, ultimately empowering more capable agents. Unlike existing RL
environment suites, Jumanji is highly customizable, allowing users to tailor
the initial state distribution and problem complexity to their needs.
Furthermore, we provide actor-critic baselines for each environment,
accompanied by preliminary findings on scaling and generalization scenarios.
Jumanji aims to set a new standard for speed, adaptability, and scalability of
RL environments.
- Abstract(参考訳): オープンソースの強化学習(RL)環境は、AIアルゴリズムの開発を進める上で重要な役割を担っている。
現代のRL研究では、より広い範囲の現実世界のアプリケーションで利用できるようにするために、パフォーマンス、拡張性、モジュール性を備えたシミュレーション環境が必要である。
そこで本稿では,高速,フレキシブル,スケーラブルに設計された多様なrl環境のスイートであるjumanjiを提案する。
Jumanjiは、業界で頻繁に遭遇する組合せ問題に焦点を当てた一連の環境を提供し、一般的な意思決定タスクに挑戦する。
JAXとGPUやTPUなどのハードウェアアクセラレータの効率を活用することで、Jumanjiは研究アイデアの迅速なイテレーションと大規模な実験を可能にし、最終的にはより有能なエージェントに権限を与える。
既存のRL環境スイートとは異なり、Jumanjiは非常にカスタマイズ可能で、ユーザが必要に応じて初期状態の配布と問題複雑さを調整できる。
さらに,各環境にアクタ-クリティックベースラインを提供し,スケーリングと一般化シナリオについて予備的な知見を得た。
jumanjiはrl環境のスピード、適応性、スケーラビリティのための新しい標準の設定を目指している。
関連論文リスト
- A Benchmark Environment for Offline Reinforcement Learning in Racing Games [54.83171948184851]
オフライン強化学習(英語: Offline Reinforcement Learning、ORL)は、従来の強化学習(RL)の高サンプリング複雑さを減らすための有望なアプローチである。
本稿では,ORL研究のための新しい環境であるOfflineManiaを紹介する。
TrackManiaシリーズにインスパイアされ、Unity 3Dゲームエンジンで開発された。
論文 参考訳(メタデータ) (2024-07-12T16:44:03Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - WILD-SCAV: Benchmarking FPS Gaming AI on Unity3D-based Environments [5.020816812380825]
深部強化学習(RL)の最近の進歩は,シミュレーション環境における複雑な意思決定能力を示している。
しかしながら、これらは、トレーニングやテストが行われる環境の複雑さやバリエーションが欠如しているため、より複雑な問題はほとんどありません。
我々は,このギャップを埋めるために,3次元オープンワールドFPSゲームに基づく,強力でオープンな環境であるWILD-SCAVを開発した。
エージェントは3D環境を理解し、ナビゲートし、計画し、人間のような方法で競争し、協力することができる。
論文 参考訳(メタデータ) (2022-10-14T13:39:41Z) - MiniHack the Planet: A Sandbox for Open-Ended Reinforcement Learning
Research [24.9044606044585]
MiniHackは、新しい深層強化学習環境を簡単に設計するための強力なサンドボックスフレームワークである。
NetHackのエンティティと環境ダイナミクスの完全なセットを活用することで、MiniHackはカスタムのRLテストベッドを設計できる。
さまざまなRLタスクとベースラインに加えて、MiniHackは既存のRLベンチマークをラップし、シームレスに複雑さを追加する方法を提供する。
論文 参考訳(メタデータ) (2021-09-27T17:22:42Z) - Scenic4RL: Programmatic Modeling and Generation of Reinforcement
Learning Environments [89.04823188871906]
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。
既存のシミュレータのほとんどは環境をランダムに生成することに頼っている。
我々は、研究者を支援するために、既存の形式シナリオ仕様言語であるSCENICを採用する利点を紹介する。
論文 参考訳(メタデータ) (2021-06-18T21:49:46Z) - Integrating Distributed Architectures in Highly Modular RL Libraries [4.297070083645049]
ほとんどの人気のある強化学習ライブラリは、高度にモジュール化されたエージェントの構成性を主張している。
本稿では、RLエージェントを独立した再利用可能なコンポーネントによって異なるスケールで定義できる汎用的アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-06T10:22:07Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。