論文の概要: Craftax: A Lightning-Fast Benchmark for Open-Ended Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.16801v2
- Date: Mon, 3 Jun 2024 14:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 16:18:27.235089
- Title: Craftax: A Lightning-Fast Benchmark for Open-Ended Reinforcement Learning
- Title(参考訳): Craftax: オープンソースの強化学習のためのLightning-Fastベンチマーク
- Authors: Michael Matthews, Michael Beukman, Benjamin Ellis, Mikayel Samvelyan, Matthew Jackson, Samuel Coward, Jakob Foerster,
- Abstract要約: Craftaxは、JAXでCrafterをベースとして書き直したもので、Pythonネイティブのオリジナルよりも最大250倍高速である。
10億の環境相互作用を使ったPPOの実行は、1つのGPUだけで1時間以内で終了する。
本研究では,グローバル・エピソード探索を含む既存の手法と,教師なし環境設計がベンチマークで実質的な進歩を損なうことを示す。
- 参考スコア(独自算出の注目度): 4.067733179628694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks play a crucial role in the development and analysis of reinforcement learning (RL) algorithms. We identify that existing benchmarks used for research into open-ended learning fall into one of two categories. Either they are too slow for meaningful research to be performed without enormous computational resources, like Crafter, NetHack and Minecraft, or they are not complex enough to pose a significant challenge, like Minigrid and Procgen. To remedy this, we first present Craftax-Classic: a ground-up rewrite of Crafter in JAX that runs up to 250x faster than the Python-native original. A run of PPO using 1 billion environment interactions finishes in under an hour using only a single GPU and averages 90% of the optimal reward. To provide a more compelling challenge we present the main Craftax benchmark, a significant extension of the Crafter mechanics with elements inspired from NetHack. Solving Craftax requires deep exploration, long term planning and memory, as well as continual adaptation to novel situations as more of the world is discovered. We show that existing methods including global and episodic exploration, as well as unsupervised environment design fail to make material progress on the benchmark. We believe that Craftax can for the first time allow researchers to experiment in a complex, open-ended environment with limited computational resources.
- Abstract(参考訳): ベンチマークは強化学習(RL)アルゴリズムの開発と分析において重要な役割を果たす。
オープンエンドラーニングの研究に用いられる既存のベンチマークは、2つのカテゴリの1つに分類される。
Crafter、NetHack、Minecraftのような膨大な計算資源なしで有意義な研究を行うには遅すぎるか、あるいはMinigridやProcgenのような重要な課題を起こすにはほどんど複雑ではない。
これを改善するために、私たちは最初にCraftax-Classicを紹介します: Pythonネイティブのオリジナルよりも最大250倍高速なJAXでのCrafterの書き直しです。
10億の環境相互作用を使用したPPOの実行は、1つのGPUだけで1時間以内に終了し、最適な報酬の90%を平均します。
NetHackからインスパイアされた要素によるCrafterのメカニックの大幅な拡張である、メインのCraftaxベンチマークを提示する。
Craftaxの解決には、深い探索、長期計画と記憶、そして世界が発見されるにつれて新しい状況への継続的な適応が必要である。
本研究では,グローバル・エピソード探索を含む既存の手法と,教師なし環境設計がベンチマークで実質的な進歩を損なうことを示す。
Craftaxは、研究者が限られた計算資源を持つ複雑なオープンエンド環境で実験できる、と私たちは信じています。
関連論文リスト
- Craftium: An Extensible Framework for Creating Reinforcement Learning Environments [0.5461938536945723]
本稿では,リッチな3次元視覚的RL環境を探索・作成するための新しいフレームワークであるCraftiumについて述べる。
Craftiumは、Minetestゲームエンジンと人気のあるGymnasium APIの上に構築されている。
論文 参考訳(メタデータ) (2024-07-04T14:38:02Z) - JaxMARL: Multi-Agent RL Environments in JAX [107.7560737385902]
我々は、使いやすさとGPU有効性を組み合わせた最初のオープンソースコードベースであるJaxMARLを紹介します。
私たちの実験によると、JAXベースのトレーニングパイプラインの実行は、既存のアプローチよりも最大で12500倍高速です。
また、人気のあるStarCraft Multi-Agent Challengeのベクトル化、単純化されたバージョンであるSMAXを紹介し、ベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T18:58:43Z) - ArchGym: An Open-Source Gymnasium for Machine Learning Assisted
Architecture Design [52.57999109204569]
ArchGymは、さまざまな検索アルゴリズムをアーキテクチャシミュレータに接続するオープンソースのフレームワークである。
我々は、カスタムメモリコントローラ、ディープニューラルネットワークアクセラレータ、AR/VRワークロード用のカスタムSOCを設計する際に、複数のバニラおよびドメイン固有の検索アルゴリズムにわたってArchGymを評価する。
論文 参考訳(メタデータ) (2023-06-15T06:41:23Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Skill Reinforcement Learning and Planning for Open-World Long-Horizon
Tasks [31.084848672383185]
オープンワールド環境におけるマルチタスクエージェントの構築について検討する。
我々は,マルチタスク学習問題を基礎的スキルの学習や,そのスキルの計画に転換する。
提案手法は40種類のMinecraftタスクをこなし,10以上のスキルを順次実行するタスクが多数存在する。
論文 参考訳(メタデータ) (2023-03-29T09:45:50Z) - MiniHack the Planet: A Sandbox for Open-Ended Reinforcement Learning
Research [24.9044606044585]
MiniHackは、新しい深層強化学習環境を簡単に設計するための強力なサンドボックスフレームワークである。
NetHackのエンティティと環境ダイナミクスの完全なセットを活用することで、MiniHackはカスタムのRLテストベッドを設計できる。
さまざまなRLタスクとベースラインに加えて、MiniHackは既存のRLベンチマークをラップし、シームレスに複雑さを追加する方法を提供する。
論文 参考訳(メタデータ) (2021-09-27T17:22:42Z) - Scaling Imitation Learning in Minecraft [114.6964571273486]
本研究では,マインクラフト環境でのハード・サーベイ問題に対する最先端の性能を達成するために模倣学習を適用した。
私たちのアプローチの初期バージョンは、NeurIPS 2019でMineRLコンペティションで2位にランクインしました。
論文 参考訳(メタデータ) (2020-07-06T12:47:01Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。