論文の概要: First-Explore, then Exploit: Meta-Learning Intelligent Exploration
- arxiv url: http://arxiv.org/abs/2307.02276v1
- Date: Wed, 5 Jul 2023 13:20:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 13:46:31.588735
- Title: First-Explore, then Exploit: Meta-Learning Intelligent Exploration
- Title(参考訳): 最初、次に爆発:メタ学習のインテリジェントな探索
- Authors: Ben Norman, Jeff Clune
- Abstract要約: 我々は、多くのRLアプローチが知的探索を学習することを妨げる中核的な障壁は、この手法が同時に探索と活用を試みることであると主張している。
本稿では,新しいメタRLフレームワーク(First-Explore)を提案する。
First-Exploreは、徹底的な探索など知的な探索戦略を学習でき、探索が犠牲となる領域において、支配的な標準RLやメタRLアプローチよりも優れていることを実証する。
- 参考スコア(独自算出の注目度): 4.676074196997298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard reinforcement learning (RL) agents never intelligently explore like
a human (i.e. by taking into account complex domain priors and previous
explorations). Even the most basic intelligent exploration strategies such as
exhaustive search are only inefficiently or poorly approximated by approaches
such as novelty search or intrinsic motivation, let alone more complicated
strategies like learning new skills, climbing stairs, opening doors, or
conducting experiments. This lack of intelligent exploration limits sample
efficiency and prevents solving hard exploration domains. We argue a core
barrier prohibiting many RL approaches from learning intelligent exploration is
that the methods attempt to explore and exploit simultaneously, which harms
both exploration and exploitation as the goals often conflict. We propose a
novel meta-RL framework (First-Explore) with two policies: one policy learns to
only explore and one policy learns to only exploit. Once trained, we can then
explore with the explore policy, for as long as desired, and then exploit based
on all the information gained during exploration. This approach avoids the
conflict of trying to do both exploration and exploitation at once. We
demonstrate that First-Explore can learn intelligent exploration strategies
such as exhaustive search and more, and that it outperforms dominant standard
RL and meta-RL approaches on domains where exploration requires sacrificing
reward. First-Explore is a significant step towards creating meta-RL algorithms
capable of learning human-level exploration which is essential to solve
challenging unseen hard-exploration domains.
- Abstract(参考訳): 標準強化学習(RL)エージェントは、人間のように知的に探索することは決してない(つまり、複雑なドメインの先行と以前の探索を考慮して)。
徹底的な探索のような最も基本的な知的な探索戦略でさえ、新規性探索や本質的なモチベーションといったアプローチによって、新しいスキルの学習、階段を登ること、ドアを開けること、実験を行うといったより複雑な戦略によって、非効率または不十分に近似されている。
このインテリジェントな探索の欠如はサンプルの効率を制限し、難しい探索領域の解決を妨げる。
我々は、多くのRLアプローチが知的探索を学習することを妨げる中核的な障壁は、この手法が同時に探索と活用を試みていることだと論じる。
我々は,2つのポリシーを持つ新しいメタrlフレームワーク (first-explore) を提案する。
一度トレーニングを済ませば、希望する限りの探索ポリシーで探索し、探索中に得られたすべての情報に基づいて活用することができます。
このアプローチは、一度に探究と搾取の両方を行おうとする対立を避ける。
First-Exploreは、徹底的な探索など知的な探索戦略を学習でき、探索が犠牲となる領域において、支配的な標準RLやメタRLアプローチよりも優れていることを実証する。
first-exploreは、人間のレベルの探索を学習できるメタrlアルゴリズムを作成するための重要なステップである。
関連論文リスト
- An Autonomous Non-monolithic Agent with Multi-mode Exploration based on
Options Framework [4.66831886752751]
非モノリシックな探査研究は、人間と動物のモードスイッチング探索行動を調べるために現れた。
私たちの研究の最終的な目的は、エージェントがいつ自律的に探索するか、活用するかを判断できるようにすることです。
論文 参考訳(メタデータ) (2023-05-02T11:08:05Z) - First Go, then Post-Explore: the Benefits of Post-Exploration in
Intrinsic Motivation [7.021281655855703]
Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。
Go-Exploreの主な洞察は、調査を成功させるためには、エージェントが最初に興味深い状態に戻る必要があります。
目標達成後の探査を「後探査」と呼ぶ。
論文 参考訳(メタデータ) (2022-12-06T18:56:47Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Exploration in Deep Reinforcement Learning: A Comprehensive Survey [24.252352133705735]
Deep Reinforcement Learning (DRL)とDeep Multi-agent Reinforcement Learning (MARL)は、ゲームAI、自動運転車、ロボティクス、ファイナンスなど、幅広い領域で大きな成功を収めている。
DRLおよび深層MARLエージェントはサンプリング非効率であることが広く知られており、比較的単純なゲーム設定でも数百万のインタラクションが必要である。
本稿では,DRLおよび深部MARLにおける既存探査手法に関する総合的な調査を行う。
論文 参考訳(メタデータ) (2021-09-14T13:16:33Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Exploration and Incentives in Reinforcement Learning [107.42240386544633]
各エージェントが同一(ただし未知)のMDPに直面する複雑な探索問題を考察する。
エージェントはポリシーの選択を制御するが、アルゴリズムは推奨事項のみを発行できる。
MDPのすべての到達可能な状態を探索するアルゴリズムを設計します。
論文 参考訳(メタデータ) (2021-02-28T00:15:53Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Decoupling Exploration and Exploitation for Meta-Reinforcement Learning
without Sacrifices [132.49849640628727]
メタ強化学習(Meta-RL)は、関連するタスクに対する事前の経験を活用することで、新しいタスクを迅速に学習できるエージェントを構築する。
原則として、タスクパフォーマンスを最大化することで、最適な探索と搾取をエンドツーエンドで学べる。
DREAMは、最適な探索を犠牲にすることなく、エンドツーエンドのトレーニングにおいて局所的な最適化を避ける。
論文 参考訳(メタデータ) (2020-08-06T17:57:36Z) - Intrinsic Exploration as Multi-Objective RL [29.124322674133]
内在的モチベーションは、報酬が非常に少ないときに強化学習(RL)エージェントを探索することを可能にする。
本稿では,多目的RLに基づくフレームワークを提案する。
この定式化は、探索と搾取のバランスを政策レベルでもたらし、従来の方法よりも有利になる。
論文 参考訳(メタデータ) (2020-04-06T02:37:29Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。