論文の概要: Scaling Laws for Imitation Learning in Single-Agent Games
- arxiv url: http://arxiv.org/abs/2307.09423v2
- Date: Sun, 10 Mar 2024 14:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 16:48:34.189234
- Title: Scaling Laws for Imitation Learning in Single-Agent Games
- Title(参考訳): シングルエージェントゲームにおける模倣学習のスケーリング法則
- Authors: Jens Tuyls, Dhruv Madeka, Kari Torkkola, Dean Foster, Karthik
Narasimhan, Sham Kakade
- Abstract要約: 我々は,モデルとデータサイズを慎重にスケールアップすることで,シングルエージェントゲームにおける模倣学習環境に類似した改善がもたらされるかどうかを検討する。
われわれはまずAtariのさまざまなゲームについて実験を行い、その後NetHackの非常に挑戦的なゲームに焦点を当てた。
IL損失と平均戻り値は計算予算とスムーズに一致し,相関関係が強く,計算最適ILエージェントの訓練には電力法則が適用されることがわかった。
- 参考スコア(独自算出の注目度): 29.941613597833133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation Learning (IL) is one of the most widely used methods in machine
learning. Yet, many works find it is often unable to fully recover the
underlying expert behavior, even in constrained environments like single-agent
games. However, none of these works deeply investigate the role of scaling up
the model and data size. Inspired by recent work in Natural Language Processing
(NLP) where "scaling up" has resulted in increasingly more capable LLMs, we
investigate whether carefully scaling up model and data size can bring similar
improvements in the imitation learning setting for single-agent games. We first
demonstrate our findings on a variety of Atari games, and thereafter focus on
the extremely challenging game of NetHack. In all games, we find that IL loss
and mean return scale smoothly with the compute budget (FLOPs) and are strongly
correlated, resulting in power laws for training compute-optimal IL agents.
Finally, we forecast and train several NetHack agents with IL and find they
outperform prior state-of-the-art by 1.5x in all settings. Our work both
demonstrates the scaling behavior of imitation learning in a variety of
single-agent games, as well as the viability of scaling up current approaches
for increasingly capable agents in NetHack, a game that remains elusively hard
for current AI systems.
- Abstract(参考訳): 模倣学習(il)は、機械学習で最も広く使われている方法の1つである。
しかし、多くの作品では、シングルエージェントゲームのような制約のある環境でも、基礎となる専門家の行動を完全に回復できないことが多い。
しかしながら、これらの研究はモデルとデータサイズをスケールアップする役割を深く調査するものではない。
近年の自然言語処理(NLP)において,"スケールアップ"によってLLMの能力が向上していることに着想を得て,モデルとデータサイズを慎重にスケールアップすることで,シングルエージェントゲームにおける模倣学習環境が改善するかどうかを検討する。
われわれはまずAtariのさまざまなゲームについて実験を行い、その後NetHackの非常に挑戦的なゲームに焦点を当てた。
すべてのゲームにおいて、IL損失と平均戻り値は計算予算(FLOP)とスムーズに一致し、強い相関関係にあり、計算最適化ILエージェントを訓練するための電力法則がもたらされる。
最後に、いくつかのNetHackエージェントをILで予測し、トレーニングし、すべての設定で1.5倍の性能を発揮する。
私たちの研究は、さまざまな単一エージェントゲームにおける模倣学習のスケーリング挙動と、現在のAIシステムにとって極めて難しいゲームであるNetHackにおける、ますます有能なエージェントに対する現在のアプローチのスケールアップの可能性を実証しています。
関連論文リスト
- Autoverse: An Evolvable Game Language for Learning Robust Embodied Agents [2.624282086797512]
シングルプレイヤ2Dグリッドベースのゲームのための,進化可能なドメイン固有言語であるAutoverseを紹介する。
オープンエンデッドラーニング(OEL)アルゴリズムのスケーラブルなトレーニンググラウンドとしての利用を実証する。
論文 参考訳(メタデータ) (2024-07-05T02:18:02Z) - Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Scaling Laws for a Multi-Agent Reinforcement Learning Model [0.0]
グラウンストーン強化学習アルゴリズムAlphaZeroの性能スケーリングについて検討した。
我々は、利用可能な計算でボトルネックにならない場合、ニューラルネットワークパラメータカウントのパワー則としてプレイヤーの強度がスケールすることを発見した。
最適なニューラルネットワークサイズが予想されるスケーリングが、両方のゲームのデータに適合していることが分かりました。
論文 参考訳(メタデータ) (2022-09-29T19:08:51Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z) - TiKick: Toward Playing Multi-agent Football Full Games from Single-agent
Demonstrations [31.596018856092513]
Tikickは、マルチエージェントのGoogle Research Footballのフルゲームを引き継ぐことができる、学習ベースのAIシステムである。
私たちの知る限りでは、Tikickは、マルチエージェントのGoogle Research Footballのフルゲームを引き継ぐことができる、初めての学習ベースのAIシステムだ。
論文 参考訳(メタデータ) (2021-10-09T08:34:58Z) - An Empirical Study on the Generalization Power of Neural Representations
Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。
提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文 参考訳(メタデータ) (2021-01-31T10:30:48Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z) - Algorithms in Multi-Agent Systems: A Holistic Perspective from
Reinforcement Learning and Game Theory [2.5147566619221515]
近年では深い強化学習が顕著な成果を上げている。
最近の研究は、シングルエージェントのシナリオを越えて学習を検討し、マルチエージェントのシナリオを検討しています。
従来のゲーム理論アルゴリズムは、現代的なアルゴリズムと組み合わせた明るいアプリケーションの約束を示し、計算能力を高める。
論文 参考訳(メタデータ) (2020-01-17T15:08:04Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。