論文の概要: Learning to Generalize with Object-centric Agents in the Open World
Survival Game Crafter
- arxiv url: http://arxiv.org/abs/2208.03374v1
- Date: Fri, 5 Aug 2022 20:05:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 12:34:35.875417
- Title: Learning to Generalize with Object-centric Agents in the Open World
Survival Game Crafter
- Title(参考訳): open world survival game crafterにおけるオブジェクト中心エージェントの一般化のための学習
- Authors: Aleksandar Stani\'c, Yujin Tang, David Ha, J\"urgen Schmidhuber
- Abstract要約: 強化学習エージェントは、訓練経験以上の一般化をしなければならない。
エージェントの一般化能力を評価するのに適した,新しい環境を提案する。
現在のエージェントは一般化に苦慮しており、強力なベースラインよりも優れた新しいオブジェクト中心エージェントを導入している。
- 参考スコア(独自算出の注目度): 72.80855376702746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning agents must generalize beyond their training
experience. Prior work has focused mostly on identical training and evaluation
environments. Starting from the recently introduced Crafter benchmark, a 2D
open world survival game, we introduce a new set of environments suitable for
evaluating some agent's ability to generalize on previously unseen (numbers of)
objects and to adapt quickly (meta-learning). In Crafter, the agents are
evaluated by the number of unlocked achievements (such as collecting resources)
when trained for 1M steps. We show that current agents struggle to generalize,
and introduce novel object-centric agents that improve over strong baselines.
We also provide critical insights of general interest for future work on
Crafter through several experiments. We show that careful hyper-parameter
tuning improves the PPO baseline agent by a large margin and that even
feedforward agents can unlock almost all achievements by relying on the
inventory display. We achieve new state-of-the-art performance on the original
Crafter environment. Additionally, when trained beyond 1M steps, our tuned
agents can unlock almost all achievements. We show that the recurrent PPO
agents improve over feedforward ones, even with the inventory information
removed. We introduce CrafterOOD, a set of 15 new environments that evaluate
OOD generalization. On CrafterOOD, we show that the current agents fail to
generalize, whereas our novel object-centric agents achieve state-of-the-art
OOD generalization while also being interpretable. Our code is public.
- Abstract(参考訳): 強化学習エージェントは、訓練経験を超えて一般化する必要がある。
先行研究は主に、同じトレーニングと評価環境に重点を置いてきた。
最近導入された2DオープンワールドサバイバルゲームであるCrafterベンチマークから、これまで見えない(数)オブジェクトを一般化し、迅速に適応する(メタラーニング)エージェントの能力を評価するのに適した、新しい環境セットを導入する。
crafterでは、エージェントは、1mステップのトレーニングでアンロックされた成果数(リソースの収集など)によって評価される。
現在のエージェントは一般化に苦慮しており、強力なベースラインよりも優れた新しいオブジェクト中心エージェントを導入している。
また、いくつかの実験を通じて、crafterに関する今後の作業に対する一般的な関心に関する批判的な洞察も提供しています。
注意深いハイパーパラメータチューニングはPPOベースラインエージェントを大きなマージンで改善し、フィードフォワードエージェントでさえ在庫表示に依存することでほぼすべての成果を解放できることを示す。
オリジナルの職人環境において,新たな最先端性能を実現する。
さらに、100万歩を超えるトレーニングを行うと、調整されたエージェントは、ほぼすべての成果を解放できます。
再帰的なPPOエージェントは在庫情報を削除してもフィードフォワードよりも改善することを示す。
OODの一般化を評価する15の新しい環境であるCrafterOODを紹介する。
CrafterOODでは、現在のエージェントが一般化に失敗するのに対し、新しいオブジェクト中心エージェントは最先端のOOD一般化を実現し、解釈可能であることを示す。
私たちのコードは公開されています。
関連論文リスト
- The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Can Agents Run Relay Race with Strangers? Generalization of RL to
Out-of-Distribution Trajectories [88.08381083207449]
異種エージェントの制御可能な状態に対する一般化失敗の有病率を示す。
本稿では,学習中のQ関数に従って環境をエージェントの旧状態にリセットする,STA(Self-Trajectory Augmentation)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-26T10:12:12Z) - Improving Multimodal Interactive Agents with Reinforcement Learning from
Human Feedback [16.268581985382433]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。
ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文 参考訳(メタデータ) (2022-11-21T16:00:31Z) - Reinforcement Learning Agents in Colonel Blotto [0.0]
エージェントベースモデルの特定の例に着目し、強化学習(RL)を用いてエージェントの環境における行動の訓練を行う。
我々はRLエージェントが1つの対戦相手を手動で打ち負かし、対戦相手の数が増えると依然として非常によく機能することを示した。
また、RLエージェントを解析し、最も高いQ値と低いQ値を与えるアクションを見て、どのような戦略が到達したかを調べる。
論文 参考訳(メタデータ) (2022-04-04T16:18:01Z) - Benchmarking the Spectrum of Agent Capabilities [7.088856621650764]
本稿では,1つの環境における幅広い汎用能力を評価する視覚入力を備えたオープンワールドサバイバルゲームであるCrafterを紹介する。
エージェントは提供された報酬信号や本質的な目的を通じて学習し、意味的に意味のある成果によって評価される。
我々は、Crafterが将来の研究を推進するのに適切な困難であることを実験的に検証し、報酬エージェントと教師なしエージェントのベースラインスコアを提供する。
論文 参考訳(メタデータ) (2021-09-14T15:49:31Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - An Empirical Study on the Generalization Power of Neural Representations
Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。
提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文 参考訳(メタデータ) (2021-01-31T10:30:48Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。