論文の概要: NetHack is Hard to Hack
- arxiv url: http://arxiv.org/abs/2305.19240v1
- Date: Tue, 30 May 2023 17:30:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 14:36:10.024714
- Title: NetHack is Hard to Hack
- Title(参考訳): NetHackはハッキングが難しい
- Authors: Ulyana Piterbarg, Lerrel Pinto, Rob Fergus
- Abstract要約: NeurIPS 2021 NetHack Challengeでは、シンボリックエージェントは中央値のゲームスコアにおいて、ニューラルネットワークのアプローチを4倍以上に上回りました。
我々はNetHackのニューラルポリシー学習について広範な研究を行っている。
従来の完全なニューラルポリシーを127%のオフライン設定、25%のオンライン設定を中央値のゲームスコアで上回る最先端のニューラルエージェントを作成しました。
- 参考スコア(独自算出の注目度): 32.79032794114056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural policy learning methods have achieved remarkable results in various
control problems, ranging from Atari games to simulated locomotion. However,
these methods struggle in long-horizon tasks, especially in open-ended
environments with multi-modal observations, such as the popular dungeon-crawler
game, NetHack. Intriguingly, the NeurIPS 2021 NetHack Challenge revealed that
symbolic agents outperformed neural approaches by over four times in median
game score. In this paper, we delve into the reasons behind this performance
gap and present an extensive study on neural policy learning for NetHack. To
conduct this study, we analyze the winning symbolic agent, extending its
codebase to track internal strategy selection in order to generate one of the
largest available demonstration datasets. Utilizing this dataset, we examine
(i) the advantages of an action hierarchy; (ii) enhancements in neural
architecture; and (iii) the integration of reinforcement learning with
imitation learning. Our investigations produce a state-of-the-art neural agent
that surpasses previous fully neural policies by 127% in offline settings and
25% in online settings on median game score. However, we also demonstrate that
mere scaling is insufficient to bridge the performance gap with the best
symbolic models or even the top human players.
- Abstract(参考訳): ニューラルポリシー学習法は,アタリゲームからシミュレーションロコモーションに至るまで,様々な制御問題において顕著な成果を上げている。
しかし、これらの手法は特に、一般的なダンジョンクローラーゲームであるNetHackのようなマルチモーダルな観察を伴うオープンな環境において、長期的タスクで苦労する。
興味深いことに、NeurIPS 2021 NetHack Challengeは、シンボリックエージェントが中央値のゲームスコアで4倍以上のニューラルアプローチを上回りました。
本稿では,この性能格差の背景にある理由を考察し,nethackのニューラルポリシー学習に関する広範な研究を行う。
本研究は,勝利の象徴的エージェントを解析し,コードベースを拡張して内部戦略の選択を追跡し,最大規模のデモデータセットを生成する。
このデータセットを用いて検討する
(i)行動階層の長所
(ii)ニューラルアーキテクチャの強化、及び
(iii)強化学習と模倣学習の統合。
我々の調査では、従来の完全なニューラルネットワークポリシーを127%のオフライン設定で、中央値のオンライン設定で25%超える最先端のニューラルエージェントを作成しました。
しかし,優れたシンボリックモデルやトップヒューマンプレイヤーでパフォーマンスギャップを埋めるには,単にスケーリングが不十分であることも示している。
関連論文リスト
- Scaling Laws for Imitation Learning in Single-Agent Games [29.941613597833133]
我々は,モデルとデータサイズを慎重にスケールアップすることで,シングルエージェントゲームにおける模倣学習環境に類似した改善がもたらされるかどうかを検討する。
われわれはまずAtariのさまざまなゲームについて実験を行い、その後NetHackの非常に挑戦的なゲームに焦点を当てた。
IL損失と平均戻り値は計算予算とスムーズに一致し,相関関係が強く,計算最適ILエージェントの訓練には電力法則が適用されることがわかった。
論文 参考訳(メタデータ) (2023-07-18T16:43:03Z) - LuckyMera: a Modular AI Framework for Building Hybrid NetHack Agents [7.23273667916516]
Rogueのようなビデオゲームは、環境の複雑さと計算コストの点で良いトレードオフを提供する。
我々は、NetHackを中心に構築された柔軟性、モジュール化、一般化、AIフレームワークであるLuckyMeraを紹介します。
LuckyMeraには、既製のシンボルモジュールとニューラルモジュール(“スキル”と呼ばれる)のセットが付属している。
論文 参考訳(メタデータ) (2023-07-17T14:46:59Z) - SpawnNet: Learning Generalizable Visuomotor Skills from Pre-trained
Networks [52.766795949716986]
本稿では,事前学習した視覚表現のカテゴリレベルでの一般化能力について検討する。
本研究では,事前学習した多層表現を独立したネットワークに融合させて,ロバストなポリシーを学習する,新しい2ストリームアーキテクチャSpawnNetを提案する。
論文 参考訳(メタデータ) (2023-07-07T13:01:29Z) - Backdoor Attack Detection in Computer Vision by Applying Matrix
Factorization on the Weights of Deep Networks [6.44397009982949]
本稿では,事前訓練したDNNの重みから特徴を抽出するバックドア検出手法を提案する。
他の検出技術と比較して、これはトレーニングデータを必要としないなど、多くのメリットがある。
提案手法は, 競合するアルゴリズムよりも効率性が高く, より正確であり, 深層学習とAIの安全な適用を確実にするのに役立つ。
論文 参考訳(メタデータ) (2022-12-15T20:20:18Z) - Insights From the NeurIPS 2021 NetHack Challenge [40.52602443114554]
最初のNeurIPS 2021 NetHack Challengeでは、AIのコミュニティ主導の進歩が紹介された。
これはニューラル(ディープRLなど)とシンボリックAI、ハイブリッドシステムを直接比較する役割を果たした。
AI研究の長期的なベンチマークとして、NetHackの適合性を示すエージェントはいなかった。
論文 参考訳(メタデータ) (2022-03-22T17:01:07Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z) - DeepCrawl: Deep Reinforcement Learning for Turn-based Strategy Games [137.86426963572214]
Deep CrawlはiOSとAndroid用の完全にプレイ可能なRogueライクなプロトタイプで、すべてのエージェントがDeep Reinforcement Learning (DRL)を使用してトレーニングされたポリシーネットワークによって制御される。
本研究の目的は、近年のDRLの進歩が、ビデオゲームにおける非プレイヤーキャラクターに対する説得力のある行動モデルの開発に有効であるかどうかを理解することである。
論文 参考訳(メタデータ) (2020-12-03T13:53:29Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z) - FRESH: Interactive Reward Shaping in High-Dimensional State Spaces using
Human Feedback [9.548547582558662]
強化学習は、複雑な環境で目標を達成するための自律エージェントの訓練に成功している。
人間のプレイヤーは、強化学習アルゴリズムよりも、いくつかの環境でより高い報酬を得るのが簡単であると考えることが多い。
これは、エージェントによって得られる報酬がスパースまたは非常に遅れた高次元状態空間に特に当てはまる。
論文 参考訳(メタデータ) (2020-01-19T06:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。