論文の概要: When to Go, and When to Explore: The Benefit of Post-Exploration in
Intrinsic Motivation
- arxiv url: http://arxiv.org/abs/2203.16311v1
- Date: Tue, 29 Mar 2022 16:50:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 07:34:38.722567
- Title: When to Go, and When to Explore: The Benefit of Post-Exploration in
Intrinsic Motivation
- Title(参考訳): いつ行くか、いつ探るか:本質的な動機づけにおける探索の恩恵
- Authors: Zhao Yang, Thomas M. Moerland, Mike Preuss and Aske Plaat
- Abstract要約: Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。
目標達成後の探査を「後探査」と呼ぶ。
我々は,いつまで,いつまで,いつまで,いつまで,いつまでかかるかを適応的に決定する新しい手法を導入する。
- 参考スコア(独自算出の注目度): 7.021281655855703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Go-Explore achieved breakthrough performance on challenging reinforcement
learning (RL) tasks with sparse rewards. The key insight of Go-Explore was that
successful exploration requires an agent to first return to an interesting
state ('Go'), and only then explore into unknown terrain ('Explore'). We refer
to such exploration after a goal is reached as 'post-exploration'. In this
paper we present a systematic study of post-exploration, answering open
questions that the Go-Explore paper did not answer yet. First, we study the
isolated potential of post-exploration, by turning it on and off within the
same algorithm. Subsequently, we introduce new methodology to adaptively decide
when to post-explore and for how long to post-explore. Experiments on a range
of MiniGrid environments show that post-exploration indeed boosts performance
(with a bigger impact than tuning regular exploration parameters), and this
effect is further enhanced by adaptively deciding when and for how long to
post-explore. In short, our work identifies adaptive post-exploration as a
promising direction for RL exploration research.
- Abstract(参考訳): Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。
Go-Exploreの重要な洞察は、調査に成功するには、エージェントが最初に興味深い状態("Go")に戻る必要があり、次に未知の地形("Explore")を探索する必要があることである。
目的が「爆発後」に到達した後にこのような探索を行う。
本稿では,Go-Explore論文がまだ答えていないオープンな疑問に答える,探索後の体系的な研究について述べる。
まず,同一アルゴリズム内でオン・オフすることで,爆発後の孤立ポテンシャルについて検討する。
続いて,爆発後の時期と爆発後の期間を適応的に決定する新しい手法を提案する。
様々なミニグリッド環境での実験では、爆発後の性能が(通常の探査パラメータのチューニングよりも大きな影響で)向上していることが示され、爆発後の時間と期間を適応的に決定することによって、この効果はさらに強化される。
まとめると、我々の研究は適応後探索をRL探査研究の有望な方向として認識している。
関連論文リスト
- First-Explore, then Exploit: Meta-Learning Intelligent Exploration [4.676074196997298]
我々は、多くのRLアプローチが知的探索を学習することを妨げる中核的な障壁は、この手法が同時に探索と活用を試みることであると主張している。
本稿では,新しいメタRLフレームワーク(First-Explore)を提案する。
First-Exploreは、徹底的な探索など知的な探索戦略を学習でき、探索が犠牲となる領域において、支配的な標準RLやメタRLアプローチよりも優れていることを実証する。
論文 参考訳(メタデータ) (2023-07-05T13:20:21Z) - An Autonomous Non-monolithic Agent with Multi-mode Exploration based on Options Framework [2.823645435281551]
非モノリシックな探査研究は、人間と動物のモードスイッチング探索行動を調べるために現れた。
私たちの研究の最終的な目的は、エージェントがいつ自律的に探索するか、活用するかを判断できるようにすることです。
論文 参考訳(メタデータ) (2023-05-02T11:08:05Z) - First Go, then Post-Explore: the Benefits of Post-Exploration in
Intrinsic Motivation [7.021281655855703]
Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。
Go-Exploreの主な洞察は、調査を成功させるためには、エージェントが最初に興味深い状態に戻る必要があります。
目標達成後の探査を「後探査」と呼ぶ。
論文 参考訳(メタデータ) (2022-12-06T18:56:47Z) - Generative Adversarial Exploration for Reinforcement Learning [48.379457575356454]
本稿では, GAEX (Generative Adversarial Explor) と呼ばれる新しい手法を提案し, 強化学習における探索を奨励する。
実験では,ゲームVenture,Montzuma's Revenge,Super Mario BrosにGAEXを適用した。
我々の知る限り、これはRL探査問題にGANを用いた最初の研究である。
論文 参考訳(メタデータ) (2022-01-27T17:34:47Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文 参考訳(メタデータ) (2020-12-15T21:26:54Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Fast active learning for pure exploration in reinforcement learning [48.98199700043158]
1/n$でスケールしたボーナスはより高速な学習率をもたらし、地平線への依存に関して既知の上限を改善します。
また, 停止時間の解析を改良することにより, 最良政体識別設定におけるサンプルの複雑さを$H$で改善できることも示している。
論文 参考訳(メタデータ) (2020-07-27T11:28:32Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。