論文の概要: Learning to Generalize with Object-centric Agents in the Open World
Survival Game Crafter
- arxiv url: http://arxiv.org/abs/2208.03374v1
- Date: Fri, 5 Aug 2022 20:05:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 12:34:35.875417
- Title: Learning to Generalize with Object-centric Agents in the Open World
Survival Game Crafter
- Title(参考訳): open world survival game crafterにおけるオブジェクト中心エージェントの一般化のための学習
- Authors: Aleksandar Stani\'c, Yujin Tang, David Ha, J\"urgen Schmidhuber
- Abstract要約: 強化学習エージェントは、訓練経験以上の一般化をしなければならない。
エージェントの一般化能力を評価するのに適した,新しい環境を提案する。
現在のエージェントは一般化に苦慮しており、強力なベースラインよりも優れた新しいオブジェクト中心エージェントを導入している。
- 参考スコア(独自算出の注目度): 72.80855376702746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning agents must generalize beyond their training
experience. Prior work has focused mostly on identical training and evaluation
environments. Starting from the recently introduced Crafter benchmark, a 2D
open world survival game, we introduce a new set of environments suitable for
evaluating some agent's ability to generalize on previously unseen (numbers of)
objects and to adapt quickly (meta-learning). In Crafter, the agents are
evaluated by the number of unlocked achievements (such as collecting resources)
when trained for 1M steps. We show that current agents struggle to generalize,
and introduce novel object-centric agents that improve over strong baselines.
We also provide critical insights of general interest for future work on
Crafter through several experiments. We show that careful hyper-parameter
tuning improves the PPO baseline agent by a large margin and that even
feedforward agents can unlock almost all achievements by relying on the
inventory display. We achieve new state-of-the-art performance on the original
Crafter environment. Additionally, when trained beyond 1M steps, our tuned
agents can unlock almost all achievements. We show that the recurrent PPO
agents improve over feedforward ones, even with the inventory information
removed. We introduce CrafterOOD, a set of 15 new environments that evaluate
OOD generalization. On CrafterOOD, we show that the current agents fail to
generalize, whereas our novel object-centric agents achieve state-of-the-art
OOD generalization while also being interpretable. Our code is public.
- Abstract(参考訳): 強化学習エージェントは、訓練経験を超えて一般化する必要がある。
先行研究は主に、同じトレーニングと評価環境に重点を置いてきた。
最近導入された2DオープンワールドサバイバルゲームであるCrafterベンチマークから、これまで見えない(数)オブジェクトを一般化し、迅速に適応する(メタラーニング)エージェントの能力を評価するのに適した、新しい環境セットを導入する。
crafterでは、エージェントは、1mステップのトレーニングでアンロックされた成果数(リソースの収集など)によって評価される。
現在のエージェントは一般化に苦慮しており、強力なベースラインよりも優れた新しいオブジェクト中心エージェントを導入している。
また、いくつかの実験を通じて、crafterに関する今後の作業に対する一般的な関心に関する批判的な洞察も提供しています。
注意深いハイパーパラメータチューニングはPPOベースラインエージェントを大きなマージンで改善し、フィードフォワードエージェントでさえ在庫表示に依存することでほぼすべての成果を解放できることを示す。
オリジナルの職人環境において,新たな最先端性能を実現する。
さらに、100万歩を超えるトレーニングを行うと、調整されたエージェントは、ほぼすべての成果を解放できます。
再帰的なPPOエージェントは在庫情報を削除してもフィードフォワードよりも改善することを示す。
OODの一般化を評価する15の新しい環境であるCrafterOODを紹介する。
CrafterOODでは、現在のエージェントが一般化に失敗するのに対し、新しいオブジェクト中心エージェントは最先端のOOD一般化を実現し、解釈可能であることを示す。
私たちのコードは公開されています。
関連論文リスト
- OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization [66.22117723598872]
マルチモーダルWebエージェントの開発を容易にするために設計されたオープンソースフレームワークを紹介する。
まず、基本モデルを模倣学習で訓練し、基礎能力を得る。
次に、エージェントにオープンウェブを探索させ、その軌道に関するフィードバックを収集する。
論文 参考訳(メタデータ) (2024-10-25T15:01:27Z) - Training on more Reachable Tasks for Generalisation in Reinforcement Learning [5.855552389030083]
マルチタスク強化学習では、エージェントは一定のタスクセットでトレーニングを行い、新しいタスクに一般化する必要がある。
近年の研究では、探索の増加がこの一般化を改善することが示されているが、その理由は不明である。
マルチタスク強化学習における到達可能性の概念を導入し、初期探索フェーズがエージェントが訓練する到達可能なタスクの数を増やすことを示す。
論文 参考訳(メタデータ) (2024-10-04T16:15:31Z) - Explore-Go: Leveraging Exploration for Generalisation in Deep Reinforcement Learning [5.624791703748109]
エージェントの一般化性能を高めるために,訓練中の探索量の増加を活用できることが示される。
本研究では,エージェントが訓練する状態の数を増やすことで,この直感を活用する新しい手法であるExplore-Goを提案する。
論文 参考訳(メタデータ) (2024-06-12T10:39:31Z) - AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - Can Agents Run Relay Race with Strangers? Generalization of RL to
Out-of-Distribution Trajectories [88.08381083207449]
異種エージェントの制御可能な状態に対する一般化失敗の有病率を示す。
本稿では,学習中のQ関数に従って環境をエージェントの旧状態にリセットする,STA(Self-Trajectory Augmentation)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-26T10:12:12Z) - Improving Multimodal Interactive Agents with Reinforcement Learning from
Human Feedback [16.268581985382433]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。
ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文 参考訳(メタデータ) (2022-11-21T16:00:31Z) - Benchmarking the Spectrum of Agent Capabilities [7.088856621650764]
本稿では,1つの環境における幅広い汎用能力を評価する視覚入力を備えたオープンワールドサバイバルゲームであるCrafterを紹介する。
エージェントは提供された報酬信号や本質的な目的を通じて学習し、意味的に意味のある成果によって評価される。
我々は、Crafterが将来の研究を推進するのに適切な困難であることを実験的に検証し、報酬エージェントと教師なしエージェントのベースラインスコアを提供する。
論文 参考訳(メタデータ) (2021-09-14T15:49:31Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。