論文の概要: Craftax: A Lightning-Fast Benchmark for Open-Ended Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2402.16801v1
- Date: Mon, 26 Feb 2024 18:19:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:41:32.789905
- Title: Craftax: A Lightning-Fast Benchmark for Open-Ended Reinforcement
Learning
- Title(参考訳): craftax: オープン拡張強化学習のためのlightning-fastベンチマーク
- Authors: Michael Matthews and Michael Beukman and Benjamin Ellis and Mikayel
Samvelyan and Matthew Jackson and Samuel Coward and Jakob Foerster
- Abstract要約: Craftaxは、JAXでCrafterをベースとして書き直したもので、Pythonネイティブのオリジナルよりも最大250倍高速である。
10億の環境相互作用を使ったPPOの実行は、1つのGPUだけで1時間以内で終了する。
本研究では,グローバル・エピソード探索を含む既存の手法と,教師なし環境設計がベンチマークで実質的な進歩を損なうことを示す。
- 参考スコア(独自算出の注目度): 4.271712591314884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks play a crucial role in the development and analysis of
reinforcement learning (RL) algorithms. We identify that existing benchmarks
used for research into open-ended learning fall into one of two categories.
Either they are too slow for meaningful research to be performed without
enormous computational resources, like Crafter, NetHack and Minecraft, or they
are not complex enough to pose a significant challenge, like Minigrid and
Procgen. To remedy this, we first present Craftax-Classic: a ground-up rewrite
of Crafter in JAX that runs up to 250x faster than the Python-native original.
A run of PPO using 1 billion environment interactions finishes in under an hour
using only a single GPU and averages 90% of the optimal reward. To provide a
more compelling challenge we present the main Craftax benchmark, a significant
extension of the Crafter mechanics with elements inspired from NetHack. Solving
Craftax requires deep exploration, long term planning and memory, as well as
continual adaptation to novel situations as more of the world is discovered. We
show that existing methods including global and episodic exploration, as well
as unsupervised environment design fail to make material progress on the
benchmark. We believe that Craftax can for the first time allow researchers to
experiment in a complex, open-ended environment with limited computational
resources.
- Abstract(参考訳): ベンチマークは強化学習(RL)アルゴリズムの開発と分析において重要な役割を果たす。
オープンエンド学習の研究に用いられる既存のベンチマークは、2つのカテゴリに分類される。
Crafter、NetHack、Minecraftのような膨大な計算資源なしで有意義な研究を行うには遅すぎるか、あるいはMinigridやProcgenのような大きな課題を起こすにはほどんど複雑ではない。
これを改善するために、私たちは最初にCraftax-Classicを紹介します: Pythonネイティブのオリジナルよりも最大250倍高速なJAXでのCrafterの書き直しです。
10億の環境相互作用を使用したPPOの実行は、1つのGPUだけで1時間以内に終了し、最適な報酬の90%を平均します。
NetHackからインスパイアされた要素によるCrafterのメカニックの大幅な拡張である、メインのCraftaxベンチマークを提示する。
Craftaxの解決には、深い探索、長期計画と記憶、そして世界が発見されるにつれて新しい状況への継続的な適応が必要である。
本研究では,グローバル・エピソード探索を含む既存の手法と,教師なし環境設計がベンチマークで実質的な進歩を損なうことを示す。
craftaxは、計算リソースが限られている複雑なオープンな環境で研究者が実験できる、とわれわれは信じている。
関連論文リスト
- Craftium: An Extensible Framework for Creating Reinforcement Learning Environments [0.5461938536945723]
本稿では,リッチな3次元視覚的RL環境を探索・作成するための新しいフレームワークであるCraftiumについて述べる。
Craftiumは、Minetestゲームエンジンと人気のあるGymnasium APIの上に構築されている。
論文 参考訳(メタデータ) (2024-07-04T14:38:02Z) - JaxMARL: Multi-Agent RL Environments and Algorithms in JAX [105.343918678781]
我々は、GPU対応の効率と多くの一般的なMARL環境のサポートを組み合わせた、最初のオープンソースPythonベースのライブラリであるJaxMARLを紹介します。
我々の実験は、壁時計時間の観点から、JAXベースのトレーニングパイプラインが既存のアプローチの約14倍高速であることを示している。
また、人気の高いStarCraft Multi-Agent ChallengeのJAXベースの近似的な再実装であるSMAXを紹介し、ベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T18:58:43Z) - ArchGym: An Open-Source Gymnasium for Machine Learning Assisted
Architecture Design [52.57999109204569]
ArchGymは、さまざまな検索アルゴリズムをアーキテクチャシミュレータに接続するオープンソースのフレームワークである。
我々は、カスタムメモリコントローラ、ディープニューラルネットワークアクセラレータ、AR/VRワークロード用のカスタムSOCを設計する際に、複数のバニラおよびドメイン固有の検索アルゴリズムにわたってArchGymを評価する。
論文 参考訳(メタデータ) (2023-06-15T06:41:23Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Skill Reinforcement Learning and Planning for Open-World Long-Horizon
Tasks [31.084848672383185]
オープンワールド環境におけるマルチタスクエージェントの構築について検討する。
我々は,マルチタスク学習問題を基礎的スキルの学習や,そのスキルの計画に転換する。
提案手法は40種類のMinecraftタスクをこなし,10以上のスキルを順次実行するタスクが多数存在する。
論文 参考訳(メタデータ) (2023-03-29T09:45:50Z) - MiniHack the Planet: A Sandbox for Open-Ended Reinforcement Learning
Research [24.9044606044585]
MiniHackは、新しい深層強化学習環境を簡単に設計するための強力なサンドボックスフレームワークである。
NetHackのエンティティと環境ダイナミクスの完全なセットを活用することで、MiniHackはカスタムのRLテストベッドを設計できる。
さまざまなRLタスクとベースラインに加えて、MiniHackは既存のRLベンチマークをラップし、シームレスに複雑さを追加する方法を提供する。
論文 参考訳(メタデータ) (2021-09-27T17:22:42Z) - Benchmarking the Spectrum of Agent Capabilities [7.088856621650764]
本稿では,1つの環境における幅広い汎用能力を評価する視覚入力を備えたオープンワールドサバイバルゲームであるCrafterを紹介する。
エージェントは提供された報酬信号や本質的な目的を通じて学習し、意味的に意味のある成果によって評価される。
我々は、Crafterが将来の研究を推進するのに適切な困難であることを実験的に検証し、報酬エージェントと教師なしエージェントのベースラインスコアを提供する。
論文 参考訳(メタデータ) (2021-09-14T15:49:31Z) - Scaling Imitation Learning in Minecraft [114.6964571273486]
本研究では,マインクラフト環境でのハード・サーベイ問題に対する最先端の性能を達成するために模倣学習を適用した。
私たちのアプローチの初期バージョンは、NeurIPS 2019でMineRLコンペティションで2位にランクインしました。
論文 参考訳(メタデータ) (2020-07-06T12:47:01Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。