論文の概要: First-Explore, then Exploit: Meta-Learning Intelligent Exploration
- arxiv url: http://arxiv.org/abs/2307.02276v1
- Date: Wed, 5 Jul 2023 13:20:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 13:46:31.588735
- Title: First-Explore, then Exploit: Meta-Learning Intelligent Exploration
- Title(参考訳): 最初、次に爆発:メタ学習のインテリジェントな探索
- Authors: Ben Norman, Jeff Clune
- Abstract要約: 我々は、多くのRLアプローチが知的探索を学習することを妨げる中核的な障壁は、この手法が同時に探索と活用を試みることであると主張している。
本稿では,新しいメタRLフレームワーク(First-Explore)を提案する。
First-Exploreは、徹底的な探索など知的な探索戦略を学習でき、探索が犠牲となる領域において、支配的な標準RLやメタRLアプローチよりも優れていることを実証する。
- 参考スコア(独自算出の注目度): 4.676074196997298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard reinforcement learning (RL) agents never intelligently explore like
a human (i.e. by taking into account complex domain priors and previous
explorations). Even the most basic intelligent exploration strategies such as
exhaustive search are only inefficiently or poorly approximated by approaches
such as novelty search or intrinsic motivation, let alone more complicated
strategies like learning new skills, climbing stairs, opening doors, or
conducting experiments. This lack of intelligent exploration limits sample
efficiency and prevents solving hard exploration domains. We argue a core
barrier prohibiting many RL approaches from learning intelligent exploration is
that the methods attempt to explore and exploit simultaneously, which harms
both exploration and exploitation as the goals often conflict. We propose a
novel meta-RL framework (First-Explore) with two policies: one policy learns to
only explore and one policy learns to only exploit. Once trained, we can then
explore with the explore policy, for as long as desired, and then exploit based
on all the information gained during exploration. This approach avoids the
conflict of trying to do both exploration and exploitation at once. We
demonstrate that First-Explore can learn intelligent exploration strategies
such as exhaustive search and more, and that it outperforms dominant standard
RL and meta-RL approaches on domains where exploration requires sacrificing
reward. First-Explore is a significant step towards creating meta-RL algorithms
capable of learning human-level exploration which is essential to solve
challenging unseen hard-exploration domains.
- Abstract(参考訳): 標準強化学習(RL)エージェントは、人間のように知的に探索することは決してない(つまり、複雑なドメインの先行と以前の探索を考慮して)。
徹底的な探索のような最も基本的な知的な探索戦略でさえ、新規性探索や本質的なモチベーションといったアプローチによって、新しいスキルの学習、階段を登ること、ドアを開けること、実験を行うといったより複雑な戦略によって、非効率または不十分に近似されている。
このインテリジェントな探索の欠如はサンプルの効率を制限し、難しい探索領域の解決を妨げる。
我々は、多くのRLアプローチが知的探索を学習することを妨げる中核的な障壁は、この手法が同時に探索と活用を試みていることだと論じる。
我々は,2つのポリシーを持つ新しいメタrlフレームワーク (first-explore) を提案する。
一度トレーニングを済ませば、希望する限りの探索ポリシーで探索し、探索中に得られたすべての情報に基づいて活用することができます。
このアプローチは、一度に探究と搾取の両方を行おうとする対立を避ける。
First-Exploreは、徹底的な探索など知的な探索戦略を学習でき、探索が犠牲となる領域において、支配的な標準RLやメタRLアプローチよりも優れていることを実証する。
first-exploreは、人間のレベルの探索を学習できるメタrlアルゴリズムを作成するための重要なステップである。
関連論文リスト
- First Go, then Post-Explore: the Benefits of Post-Exploration in
Intrinsic Motivation [7.021281655855703]
Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。
Go-Exploreの主な洞察は、調査を成功させるためには、エージェントが最初に興味深い状態に戻る必要があります。
目標達成後の探査を「後探査」と呼ぶ。
論文 参考訳(メタデータ) (2022-12-06T18:56:47Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Hindsight Task Relabelling: Experience Replay for Sparse Reward Meta-RL [91.26538493552817]
本稿では,メタRLの学習経験をリラベルするメタRLのための後向きレバーベリングの定式化について述べる。
提案手法の有効性を,難易度の高い目標達成環境のスイートで実証する。
論文 参考訳(メタデータ) (2021-12-02T00:51:17Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Exploration in Deep Reinforcement Learning: A Comprehensive Survey [24.252352133705735]
Deep Reinforcement Learning (DRL)とDeep Multi-agent Reinforcement Learning (MARL)は、ゲームAI、自動運転車、ロボティクス、ファイナンスなど、幅広い領域で大きな成功を収めている。
DRLおよび深層MARLエージェントはサンプリング非効率であることが広く知られており、比較的単純なゲーム設定でも数百万のインタラクションが必要である。
本稿では,DRLおよび深部MARLにおける既存探査手法に関する総合的な調査を行う。
論文 参考訳(メタデータ) (2021-09-14T13:16:33Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Decoupling Exploration and Exploitation for Meta-Reinforcement Learning
without Sacrifices [132.49849640628727]
メタ強化学習(Meta-RL)は、関連するタスクに対する事前の経験を活用することで、新しいタスクを迅速に学習できるエージェントを構築する。
原則として、タスクパフォーマンスを最大化することで、最適な探索と搾取をエンドツーエンドで学べる。
DREAMは、最適な探索を犠牲にすることなく、エンドツーエンドのトレーニングにおいて局所的な最適化を避ける。
論文 参考訳(メタデータ) (2020-08-06T17:57:36Z) - MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration [52.48362697163477]
実験により,我々のメタRL法はスパース・リワードタスクにおける最先端のベースラインを著しく上回ることがわかった。
本稿では,活用政策学習とは切り離されたメタRLの探索政策学習問題をモデル化する。
我々は、コンテキスト対応の探索と利用ポリシーを効率よく学習する、新しい非政治メタRLフレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-15T06:56:18Z) - Intrinsic Exploration as Multi-Objective RL [29.124322674133]
内在的モチベーションは、報酬が非常に少ないときに強化学習(RL)エージェントを探索することを可能にする。
本稿では,多目的RLに基づくフレームワークを提案する。
この定式化は、探索と搾取のバランスを政策レベルでもたらし、従来の方法よりも有利になる。
論文 参考訳(メタデータ) (2020-04-06T02:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。