論文の概要: Open-Ended Learning Leads to Generally Capable Agents
- arxiv url: http://arxiv.org/abs/2107.12808v1
- Date: Tue, 27 Jul 2021 13:30:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 14:51:58.885351
- Title: Open-Ended Learning Leads to Generally Capable Agents
- Title(参考訳): オープンエンド学習が一般のエージェントに導く
- Authors: Open-Ended Learning Team, Adam Stooke, Anuj Mahajan, Catarina Barros,
Charlie Deck, Jakob Bauer, Jakub Sygnowski, Maja Trebacz, Max Jaderberg,
Michael Mathieu, Nat McAleese, Nathalie Bradley-Schmieg, Nathaniel Wong,
Nicolas Porcel, Roberta Raileanu, Steph Hughes-Fitt, Valentin Dalibard,
Wojciech Marian Czarnecki
- Abstract要約: 環境領域内のタスクの宇宙を定義し、この広大な空間をまたいだエージェントを訓練する能力を示す。
結果として生じる空間は、エージェントがもたらす課題に関して非常に多様であり、エージェントの学習の進捗を測定することさえも、オープンな研究課題である。
オープンエンド学習プロセスの構築により,エージェントが学習を止めないようなトレーニングタスク分布や訓練目標を動的に変化させることで,新しい行動の一貫性のある学習が可能になることを示す。
- 参考スコア(独自算出の注目度): 12.079718607356178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we create agents that can perform well beyond a single,
individual task, that exhibit much wider generalisation of behaviour to a
massive, rich space of challenges. We define a universe of tasks within an
environment domain and demonstrate the ability to train agents that are
generally capable across this vast space and beyond. The environment is
natively multi-agent, spanning the continuum of competitive, cooperative, and
independent games, which are situated within procedurally generated physical 3D
worlds. The resulting space is exceptionally diverse in terms of the challenges
posed to agents, and as such, even measuring the learning progress of an agent
is an open research problem. We propose an iterative notion of improvement
between successive generations of agents, rather than seeking to maximise a
singular objective, allowing us to quantify progress despite tasks being
incomparable in terms of achievable rewards. We show that through constructing
an open-ended learning process, which dynamically changes the training task
distributions and training objectives such that the agent never stops learning,
we achieve consistent learning of new behaviours. The resulting agent is able
to score reward in every one of our humanly solvable evaluation levels, with
behaviour generalising to many held-out points in the universe of tasks.
Examples of this zero-shot generalisation include good performance on Hide and
Seek, Capture the Flag, and Tag. Through analysis and hand-authored probe tasks
we characterise the behaviour of our agent, and find interesting emergent
heuristic behaviours such as trial-and-error experimentation, simple tool use,
option switching, and cooperation. Finally, we demonstrate that the general
capabilities of this agent could unlock larger scale transfer of behaviour
through cheap finetuning.
- Abstract(参考訳): この作業では、単一の個々のタスクを超えて、巨大な、豊富な課題空間への行動のより広範な一般化を示すエージェントを作成します。
我々は、環境領域内のタスクの宇宙を定義し、この広大な空間を超えて一般的に有能なエージェントを訓練する能力を示す。
この環境はネイティブにマルチエージェントであり、プロシージャ的に生成された物理的な3D世界に位置する、競争、協力、および独立したゲームの連続性にまたがる。
結果として生じる空間は、エージェントがもたらす課題に関して非常に多様であり、エージェントの学習進捗を測定することさえもオープンな研究課題である。
達成可能な報酬という観点からは,タスクが相容れないにも拘わらず,進捗の定量化を可能にするため,特定の目的を最大化しようとするのではなく,代々のエージェント間の改善の反復的概念を提案する。
エージェントが学習をやめないよう,学習タスクの分布や学習目標を動的に変化させるオープンエンド学習プロセスを構築し,新たな行動の一貫した学習を実現する。
結果として得られるエージェントは、人間の解決可能な評価レベルのうちの1つで報酬を得ることができ、その振る舞いはタスクの宇宙における多くの保留点に一般化される。
このゼロショット一般化の例としては、hid and seek、capture the flag、tagなどがある。
分析と手作りのプローブタスクを通じて,エージェントの振る舞いを特徴付け,試行錯誤実験,簡単なツール使用,オプション切り替え,協調など,興味深い創発的なヒューリスティックな動作を見出す。
最後に,このエージェントの汎用能力により,安価なファインタニングによる大規模行動伝達が実現可能であることを示す。
関連論文リスト
- Emergence of Collective Open-Ended Exploration from Decentralized Meta-Reinforcement Learning [2.296343533657165]
近年の研究では、メタ強化学習を用いて訓練されたエージェントにおいて、自己プレイを用いたオープンエンドタスク分布において、複雑な協調行動が出現することが証明されている。
我々は,自然界における一般集団探索戦略の展開を,自己プレイやその他の集中訓練技術が正確に反映していないことを論じる。
論文 参考訳(メタデータ) (2023-11-01T16:56:44Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - Unsupervised Reinforcement Learning for Transferable Manipulation Skill
Discovery [22.32327908453603]
ロボット工学における現在の強化学習(RL)は、しばしば新しい下流タスクへの一般化の難しさを経験する。
本稿では,タスク固有の報酬にアクセスできることなく,タスクに依存しない方法でエージェントを事前訓練するフレームワークを提案する。
提案手法は,最も多様なインタラクション動作を実現し,下流タスクのサンプル効率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-04-29T06:57:46Z) - Collaborative Training of Heterogeneous Reinforcement Learning Agents in
Environments with Sparse Rewards: What and When to Share? [7.489793155793319]
本研究は,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を目的とした情報を組み合わせることに焦点を当てる。
計算コストの少ない協調的なフレームワークが知識を共有することなく独立した学習プロセスより優れていることを示す。
論文 参考訳(メタデータ) (2022-02-24T16:15:51Z) - Is Curiosity All You Need? On the Utility of Emergent Behaviours from
Curious Exploration [20.38772636693469]
我々は、好奇心を高速な環境探索や、特定のタスクに対するボーナス報酬として使うだけでは、この手法の潜在能力を最大限に活用できないと論じている。
好奇心に基づく学習において出現する行動の維持に焦点を移すことを提案する。
論文 参考訳(メタデータ) (2021-09-17T15:28:25Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。
多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文 参考訳(メタデータ) (2020-04-06T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。