論文の概要: Dungeons and Data: A Large-Scale NetHack Dataset
- arxiv url: http://arxiv.org/abs/2211.00539v1
- Date: Tue, 1 Nov 2022 15:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 13:16:30.528933
- Title: Dungeons and Data: A Large-Scale NetHack Dataset
- Title(参考訳): Dungeons and Data: 大規模NetHackデータセット
- Authors: Eric Hambro, Roberta Raileanu, Danielle Rothermel, Vegard Mella, Tim
Rockt\"aschel, Heinrich K\"uttler, Naila Murray
- Abstract要約: 我々はNetHack Learning dataset (NLD)を紹介した。NetHackの人気のゲームから,大規模かつ高度にスケール可能なトラジェクトリのデータセットである。
NLDは3つの部分で構成されている: 2009年から2020年にかけてNAOのパブリックNetHackサーバーで収集された150万件の人的軌道から100億件の国家遷移、2021年のNetHack Challengeの象徴的ボット勝者から収集された10万件の国家行動スコアから30億件の国家行動スコアへの移行。
我々は、オンラインとオフラインのRLを含む幅広い既存アルゴリズムとデモからの学習を評価し、大規模なデータセットをフル活用して、挑戦的なシーケンシャルに対処するためには、重要な研究の進歩が必要であることを示した。
- 参考スコア(独自算出の注目度): 13.931518444525201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent breakthroughs in the development of agents to solve challenging
sequential decision making problems such as Go, StarCraft, or DOTA, have relied
on both simulated environments and large-scale datasets. However, progress on
this research has been hindered by the scarcity of open-sourced datasets and
the prohibitive computational cost to work with them. Here we present the
NetHack Learning Dataset (NLD), a large and highly-scalable dataset of
trajectories from the popular game of NetHack, which is both extremely
challenging for current methods and very fast to run. NLD consists of three
parts: 10 billion state transitions from 1.5 million human trajectories
collected on the NAO public NetHack server from 2009 to 2020; 3 billion
state-action-score transitions from 100,000 trajectories collected from the
symbolic bot winner of the NetHack Challenge 2021; and, accompanying code for
users to record, load and stream any collection of such trajectories in a
highly compressed form. We evaluate a wide range of existing algorithms
including online and offline RL, as well as learning from demonstrations,
showing that significant research advances are needed to fully leverage
large-scale datasets for challenging sequential decision making tasks.
- Abstract(参考訳): Go、StarCraft、DOTAといったシーケンシャルな意思決定問題を解決するエージェントの開発における最近のブレークスルーは、シミュレーション環境と大規模データセットの両方に依存している。
しかし、この研究の進展は、オープンソースデータセットの不足と、それらを扱うための計算コストによって妨げられている。
本稿では,NetHack Learning Dataset(NLD)について紹介する。NetHackの人気のゲームから,大規模かつ高度にスケール可能なトラジェクトリデータセットであるNetHack Learning Dataset(NLD)について述べる。
NLDは3つの部分から構成される: 2009年から2020年にかけてNAOのパブリックNetHackサーバで収集された150万件の人間の軌道からの100億件の状態遷移、NetHack Challenge 2021の象徴的なボット勝者から収集された10万件の軌道からの30億件の国家行動スコアの遷移、そして、ユーザがその軌道のコレクションを高度に圧縮された形式で記録、読み込み、ストリームするためのコード。
我々は,オンラインおよびオフラインのrlを含む既存のアルゴリズムを評価し,実演から学ぶとともに,大規模データセットを十分に活用してシーケンシャルな意思決定タスクに挑戦するためには,重要な研究成果が必要であることを示した。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Katakomba: Tools and Benchmarks for Data-Driven NetHack [52.0035089982277]
NetHackは強化学習研究のフロンティアとして知られている。
採用には、リソースワイド、実装ワイド、ベンチマークワイドの3つの大きな障害がある、と私たちは主張しています。
オフラインの強化学習コミュニティに慣れ親しんだワークフローの基礎を提供するオープンソースライブラリを開発した。
論文 参考訳(メタデータ) (2023-06-14T22:50:25Z) - NetHack is Hard to Hack [37.24009814390211]
NeurIPS 2021 NetHack Challengeでは、シンボリックエージェントは中央値のゲームスコアにおいて、ニューラルネットワークのアプローチを4倍以上に上回りました。
我々はNetHackのニューラルポリシー学習について広範な研究を行っている。
従来の完全なニューラルポリシーを127%のオフライン設定、25%のオンライン設定を中央値のゲームスコアで上回る最先端のニューラルエージェントを作成しました。
論文 参考訳(メタデータ) (2023-05-30T17:30:17Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Insights From the NeurIPS 2021 NetHack Challenge [40.52602443114554]
最初のNeurIPS 2021 NetHack Challengeでは、AIのコミュニティ主導の進歩が紹介された。
これはニューラル(ディープRLなど)とシンボリックAI、ハイブリッドシステムを直接比較する役割を果たした。
AI研究の長期的なベンチマークとして、NetHackの適合性を示すエージェントはいなかった。
論文 参考訳(メタデータ) (2022-03-22T17:01:07Z) - LID 2020: The Learning from Imperfect Data Challenge Results [242.86700551532272]
Imperfect Dataワークショップからの学習は、新しいアプローチの開発に刺激を与え、促進することを目的としている。
我々は、弱教師付き学習環境における最先端のアプローチを見つけるために、3つの課題を編成する。
この技術的レポートは、課題のハイライトを要約している。
論文 参考訳(メタデータ) (2020-10-17T13:06:12Z) - 2nd Place Scheme on Action Recognition Track of ECCV 2020 VIPriors
Challenges: An Efficient Optical Flow Stream Guided Framework [57.847010327319964]
我々は、小さなデータセットでモデルをスクラッチからトレーニングできるデータ効率フレームワークを提案する。
具体的には、3D中心差分畳み込み演算を導入することで、新しいC3Dニューラルネットワークベースの2ストリームフレームワークを提案する。
提案手法は,大規模データセット上で事前学習したモデルがなくても,有望な結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-08-10T09:50:28Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。