論文の概要: Scaling Laws for Imitation Learning in NetHack
- arxiv url: http://arxiv.org/abs/2307.09423v1
- Date: Tue, 18 Jul 2023 16:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 13:45:23.489533
- Title: Scaling Laws for Imitation Learning in NetHack
- Title(参考訳): NetHackにおける模倣学習のスケーリング法則
- Authors: Jens Tuyls, Dhruv Madeka, Kari Torkkola, Dean Foster, Karthik
Narasimhan, Sham Kakade
- Abstract要約: モデルとデータサイズを慎重にスケールアップすることで、模倣学習環境において同様の改善がもたらされるかどうかを検討する。
IL損失と平均戻り尺度は計算予算とスムーズに一致し,相関が強い。
我々は、いくつかのNetHackエージェントをILでトレーニングし、すべての設定で、少なくとも2倍の精度で先行技術より優れています。
- 参考スコア(独自算出の注目度): 20.7494147245864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation Learning (IL) is one of the most widely used methods in machine
learning. Yet, while powerful, many works find it is often not able to fully
recover the underlying expert behavior. However, none of these works deeply
investigate the role of scaling up the model and data size. Inspired by recent
work in Natural Language Processing (NLP) where "scaling up" has resulted in
increasingly more capable LLMs, we investigate whether carefully scaling up
model and data size can bring similar improvements in the imitation learning
setting. To demonstrate our findings, we focus on the game of NetHack, a
challenging environment featuring procedural generation, stochasticity,
long-term dependencies, and partial observability. We find IL loss and mean
return scale smoothly with the compute budget and are strongly correlated,
resulting in power laws for training compute-optimal IL agents with respect to
model size and number of samples. We forecast and train several NetHack agents
with IL and find they outperform prior state-of-the-art by at least 2x in all
settings. Our work both demonstrates the scaling behavior of imitation learning
in a challenging domain, as well as the viability of scaling up current
approaches for increasingly capable agents in NetHack, a game that remains
elusively hard for current AI systems.
- Abstract(参考訳): 模倣学習(il)は、機械学習で最も広く使われている方法の1つである。
しかし、強力だが、多くの研究は、基礎となる専門家の振る舞いを完全に回復できないことが多い。
しかしながら、これらの研究はモデルとデータサイズをスケールアップする役割を深く調査するものではない。
自然言語処理 (NLP) における最近の研究から着想を得て, モデルとデータサイズを慎重にスケールアップすることで, 模倣学習環境において同様の改善がもたらされるかどうかを検討する。
本研究は,手続き生成,確率性,長期依存性,部分的可観測性を備えた挑戦的な環境であるNetHackのゲームに焦点を当てた。
il損失と平均リターンスケールは計算予算とスムーズに一致し,強い相関関係にあり,モデルサイズとサンプル数に関して計算最適ilエージェントを訓練するための電力則が成立する。
我々は、いくつかのNetHackエージェントをILで予測し、トレーニングし、すべての設定で2倍以上の精度で先行技術より優れています。
我々の研究はどちらも、挑戦的な領域における模倣学習のスケーリングの挙動と、現在のAIシステムにとって明らかに難しいゲームであるNetHackにおける、ますます有能なエージェントに対する現在のアプローチのスケールアップの可能性を実証しています。
関連論文リスト
- Autoverse: An Evolvable Game Language for Learning Robust Embodied Agents [2.624282086797512]
シングルプレイヤ2Dグリッドベースのゲームのための,進化可能なドメイン固有言語であるAutoverseを紹介する。
オープンエンデッドラーニング(OEL)アルゴリズムのスケーラブルなトレーニンググラウンドとしての利用を実証する。
論文 参考訳(メタデータ) (2024-07-05T02:18:02Z) - Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Scaling Laws for a Multi-Agent Reinforcement Learning Model [0.0]
グラウンストーン強化学習アルゴリズムAlphaZeroの性能スケーリングについて検討した。
我々は、利用可能な計算でボトルネックにならない場合、ニューラルネットワークパラメータカウントのパワー則としてプレイヤーの強度がスケールすることを発見した。
最適なニューラルネットワークサイズが予想されるスケーリングが、両方のゲームのデータに適合していることが分かりました。
論文 参考訳(メタデータ) (2022-09-29T19:08:51Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z) - TiKick: Toward Playing Multi-agent Football Full Games from Single-agent
Demonstrations [31.596018856092513]
Tikickは、マルチエージェントのGoogle Research Footballのフルゲームを引き継ぐことができる、学習ベースのAIシステムである。
私たちの知る限りでは、Tikickは、マルチエージェントのGoogle Research Footballのフルゲームを引き継ぐことができる、初めての学習ベースのAIシステムだ。
論文 参考訳(メタデータ) (2021-10-09T08:34:58Z) - An Empirical Study on the Generalization Power of Neural Representations
Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。
提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文 参考訳(メタデータ) (2021-01-31T10:30:48Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z) - Algorithms in Multi-Agent Systems: A Holistic Perspective from
Reinforcement Learning and Game Theory [2.5147566619221515]
近年では深い強化学習が顕著な成果を上げている。
最近の研究は、シングルエージェントのシナリオを越えて学習を検討し、マルチエージェントのシナリオを検討しています。
従来のゲーム理論アルゴリズムは、現代的なアルゴリズムと組み合わせた明るいアプリケーションの約束を示し、計算能力を高める。
論文 参考訳(メタデータ) (2020-01-17T15:08:04Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。