論文の概要: First Go, then Post-Explore: the Benefits of Post-Exploration in
Intrinsic Motivation
- arxiv url: http://arxiv.org/abs/2212.03251v1
- Date: Tue, 6 Dec 2022 18:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 15:31:02.992212
- Title: First Go, then Post-Explore: the Benefits of Post-Exploration in
Intrinsic Motivation
- Title(参考訳): 初回, 次回公開: 本質的動機づけにおける後探索のメリット
- Authors: Zhao Yang, Thomas M. Moerland, Mike Preuss, Aske Plaat
- Abstract要約: Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。
Go-Exploreの主な洞察は、調査を成功させるためには、エージェントが最初に興味深い状態に戻る必要があります。
目標達成後の探査を「後探査」と呼ぶ。
- 参考スコア(独自算出の注目度): 7.021281655855703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Go-Explore achieved breakthrough performance on challenging reinforcement
learning (RL) tasks with sparse rewards. The key insight of Go-Explore was that
successful exploration requires an agent to first return to an interesting
state ('Go'), and only then explore into unknown terrain ('Explore'). We refer
to such exploration after a goal is reached as 'post-exploration'. In this
paper, we present a clear ablation study of post-exploration in a general
intrinsically motivated goal exploration process (IMGEP) framework, that the
Go-Explore paper did not show. We study the isolated potential of
post-exploration, by turning it on and off within the same algorithm under both
tabular and deep RL settings on both discrete navigation and continuous control
tasks. Experiments on a range of MiniGrid and Mujoco environments show that
post-exploration indeed helps IMGEP agents reach more diverse states and boosts
their performance. In short, our work suggests that RL researchers should
consider to use post-exploration in IMGEP when possible since it is effective,
method-agnostic and easy to implement.
- Abstract(参考訳): Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。
Go-Exploreの重要な洞察は、調査に成功するには、エージェントが最初に興味深い状態("Go")に戻る必要があり、次に未知の地形("Explore")を探索する必要があることである。
目的が「爆発後」に到達した後にこのような探索を行う。
本稿では,Go-Exploreの論文では示されていない,汎用的な目標探索プロセス(IMGEP)フレームワークにおける探索後のアブレーションについて述べる。
個別のナビゲーションタスクと連続制御タスクの両方において、表と深のRL設定の両方で同じアルゴリズムでオン/オフすることで、探索後の孤立した可能性について検討する。
様々なMiniGridおよびMujoco環境の実験では、探索後、IMGEPエージェントがより多様な状態に到達し、パフォーマンスを高めることができる。
簡単に言うと、RLの研究者は、効果的で、メソッドに依存し、実装が容易であるため、IMGEPでの探索を可能とすべきである。
関連論文リスト
- Deterministic Exploration via Stationary Bellman Error Maximization [6.474106100512158]
探索は強化学習(RL)の重要かつ特異な側面である
本稿では,後者を安定させ,決定論的探索政策に到達するための3つの修正点を紹介する。
実験結果から,本手法は高密度かつスパースな報酬設定において,$varepsilon$-greedyよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-31T11:46:48Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Successor-Predecessor Intrinsic Exploration [18.440869985362998]
本研究は,内因性報酬を用いた探索に焦点を当て,エージェントが自己生成型内因性報酬を用いて外因性報酬を過渡的に増強する。
本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。
本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-24T16:02:51Z) - BYOL-Explore: Exploration by Bootstrapped Prediction [49.221173336814225]
BYOL-Exploreは、視覚的に複雑な環境で好奇心を駆使した探索のための概念的には単純だが一般的なアプローチである。
BYOL-Explore は DM-HARD-8 において有効であることを示す。
論文 参考訳(メタデータ) (2022-06-16T17:36:15Z) - When to Go, and When to Explore: The Benefit of Post-Exploration in
Intrinsic Motivation [7.021281655855703]
Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。
目標達成後の探査を「後探査」と呼ぶ。
我々は,いつまで,いつまで,いつまで,いつまで,いつまでかかるかを適応的に決定する新しい手法を導入する。
論文 参考訳(メタデータ) (2022-03-29T16:50:12Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文 参考訳(メタデータ) (2020-12-15T21:26:54Z) - First return, then explore [18.876005532689234]
Go-Exploreは、有望な状態を明示的に記憶し、意図的に探索する前に最初にそのような状態に戻るアルゴリズムのファミリーである。
Go-Exploreは、これまで未解決だったAtariゲームをすべて解決し、ハード探索ゲームにおける最先端の技術を超越している。
目標条件付きポリシーを追加することで、Go-Exploreの探索効率をさらに向上し、トレーニング全体を通して処理できることを示す。
論文 参考訳(メタデータ) (2020-04-27T16:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。