論文の概要: Insights From the NeurIPS 2021 NetHack Challenge
- arxiv url: http://arxiv.org/abs/2203.11889v1
- Date: Tue, 22 Mar 2022 17:01:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 12:42:54.497920
- Title: Insights From the NeurIPS 2021 NetHack Challenge
- Title(参考訳): NeurIPS 2021 NetHack Challengeからの洞察
- Authors: Eric Hambro, Sharada Mohanty, Dmitrii Babaev, Minwoo Byeon, Dipam
Chakraborty, Edward Grefenstette, Minqi Jiang, Daejin Jo, Anssi Kanervisto,
Jongmin Kim, Sungwoong Kim, Robert Kirk, Vitaly Kurin, Heinrich K\"uttler,
Taehwon Kwon, Donghoon Lee, Vegard Mella, Nantas Nardelli, Ivan Nazarov,
Nikita Ovsov, Jack Parker-Holder, Roberta Raileanu, Karolis Ramanauskas, Tim
Rockt\"aschel, Danielle Rothermel, Mikayel Samvelyan, Dmitry Sorokin, Maciej
Sypetkowski, Micha{\l} Sypetkowski
- Abstract要約: 最初のNeurIPS 2021 NetHack Challengeでは、AIのコミュニティ主導の進歩が紹介された。
これはニューラル(ディープRLなど)とシンボリックAI、ハイブリッドシステムを直接比較する役割を果たした。
AI研究の長期的なベンチマークとして、NetHackの適合性を示すエージェントはいなかった。
- 参考スコア(独自算出の注目度): 40.52602443114554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we summarize the takeaways from the first NeurIPS 2021
NetHack Challenge. Participants were tasked with developing a program or agent
that can win (i.e., 'ascend' in) the popular dungeon-crawler game of NetHack by
interacting with the NetHack Learning Environment (NLE), a scalable,
procedurally generated, and challenging Gym environment for reinforcement
learning (RL). The challenge showcased community-driven progress in AI with
many diverse approaches significantly beating the previously best results on
NetHack. Furthermore, it served as a direct comparison between neural (e.g.,
deep RL) and symbolic AI, as well as hybrid systems, demonstrating that on
NetHack symbolic bots currently outperform deep RL by a large margin. Lastly,
no agent got close to winning the game, illustrating NetHack's suitability as a
long-term benchmark for AI research.
- Abstract(参考訳): 本稿では,第1回NeurIPS 2021 NetHack Challengeの概要を紹介する。
参加者はnethack learning environment (nle)、スケーラブルで手続き的な生成、強化学習(rl)のための挑戦的なジム環境と対話することで、nethackのダンジョンクローラーゲームで勝利できるプログラムやエージェントの開発に携わった。
この課題は、多くの多様なアプローチを持つAIにおけるコミュニティ主導の進歩を示し、これまでNetHackで最良の結果を上回った。
さらに、ニューラル(ディープRLなど)とシンボリックAIとハイブリッドシステムとの直接比較として機能し、NetHackのシンボリックボットでは、現在ディープRLを大きなマージンで上回っていることを示した。
最後に、どのエージェントもゲームに勝つことに近づき、AI研究の長期ベンチマークとしてのNetHackの適合性を示した。
関連論文リスト
- Playing NetHack with LLMs: Potential & Limitations as Zero-Shot Agents [0.0]
大言語モデル(LLM)は、ゼロショットゲームプレイングエージェントのためのハイレベルプランナーとして大きな成功を収めている。
我々は,LLMを用いた最初のゼロショットエージェントであるNetPlayを紹介した。
論文 参考訳(メタデータ) (2024-03-01T17:22:16Z) - DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - LuckyMera: a Modular AI Framework for Building Hybrid NetHack Agents [7.23273667916516]
Rogueのようなビデオゲームは、環境の複雑さと計算コストの点で良いトレードオフを提供する。
我々は、NetHackを中心に構築された柔軟性、モジュール化、一般化、AIフレームワークであるLuckyMeraを紹介します。
LuckyMeraには、既製のシンボルモジュールとニューラルモジュール(“スキル”と呼ばれる)のセットが付属している。
論文 参考訳(メタデータ) (2023-07-17T14:46:59Z) - NetHack is Hard to Hack [37.24009814390211]
NeurIPS 2021 NetHack Challengeでは、シンボリックエージェントは中央値のゲームスコアにおいて、ニューラルネットワークのアプローチを4倍以上に上回りました。
我々はNetHackのニューラルポリシー学習について広範な研究を行っている。
従来の完全なニューラルポリシーを127%のオフライン設定、25%のオンライン設定を中央値のゲームスコアで上回る最先端のニューラルエージェントを作成しました。
論文 参考訳(メタデータ) (2023-05-30T17:30:17Z) - Dungeons and Data: A Large-Scale NetHack Dataset [19.5560914918284]
我々はNetHack Learning dataset (NLD)を紹介した。NetHackの人気のゲームから,大規模かつ高度にスケール可能なトラジェクトリのデータセットである。
NLDは3つの部分で構成されている: 2009年から2020年にかけてNAOのパブリックNetHackサーバーで収集された150万件の人的軌道から100億件の国家遷移、2021年のNetHack Challengeの象徴的ボット勝者から収集された10万件の国家行動スコアから30億件の国家行動スコアへの移行。
我々は、オンラインとオフラインのRLを含む幅広い既存アルゴリズムとデモからの学習を評価し、大規模なデータセットをフル活用して、挑戦的なシーケンシャルに対処するためには、重要な研究の進歩が必要であることを示した。
論文 参考訳(メタデータ) (2022-11-01T15:43:29Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - DeepCrawl: Deep Reinforcement Learning for Turn-based Strategy Games [137.86426963572214]
Deep CrawlはiOSとAndroid用の完全にプレイ可能なRogueライクなプロトタイプで、すべてのエージェントがDeep Reinforcement Learning (DRL)を使用してトレーニングされたポリシーネットワークによって制御される。
本研究の目的は、近年のDRLの進歩が、ビデオゲームにおける非プレイヤーキャラクターに対する説得力のある行動モデルの開発に有効であるかどうかを理解することである。
論文 参考訳(メタデータ) (2020-12-03T13:53:29Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z) - Suphx: Mastering Mahjong with Deep Reinforcement Learning [114.68233321904623]
我々は、新たに導入されたいくつかの技術を用いた深層強化学習に基づいて、Suphxという名のマフジョンのためのAIを設計する。
Suphxは、安定したランクの点で、ほとんどのトップの人間プレイヤーよりも強いパフォーマンスを示している。
コンピュータプログラムがマヒョンで最上位の人間プレイヤーを上回るのは、これが初めてである。
論文 参考訳(メタデータ) (2020-03-30T16:18:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。