論文の概要: First return, then explore
- arxiv url: http://arxiv.org/abs/2004.12919v6
- Date: Thu, 16 Sep 2021 17:50:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 05:31:49.402035
- Title: First return, then explore
- Title(参考訳): 最初に戻って 探索して
- Authors: Adrien Ecoffet, Joost Huizinga, Joel Lehman, Kenneth O. Stanley and
Jeff Clune
- Abstract要約: Go-Exploreは、有望な状態を明示的に記憶し、意図的に探索する前に最初にそのような状態に戻るアルゴリズムのファミリーである。
Go-Exploreは、これまで未解決だったAtariゲームをすべて解決し、ハード探索ゲームにおける最先端の技術を超越している。
目標条件付きポリシーを追加することで、Go-Exploreの探索効率をさらに向上し、トレーニング全体を通して処理できることを示す。
- 参考スコア(独自算出の注目度): 18.876005532689234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The promise of reinforcement learning is to solve complex sequential decision
problems autonomously by specifying a high-level reward function only. However,
reinforcement learning algorithms struggle when, as is often the case, simple
and intuitive rewards provide sparse and deceptive feedback. Avoiding these
pitfalls requires thoroughly exploring the environment, but creating algorithms
that can do so remains one of the central challenges of the field. We
hypothesise that the main impediment to effective exploration originates from
algorithms forgetting how to reach previously visited states ("detachment") and
from failing to first return to a state before exploring from it
("derailment"). We introduce Go-Explore, a family of algorithms that addresses
these two challenges directly through the simple principles of explicitly
remembering promising states and first returning to such states before
intentionally exploring. Go-Explore solves all heretofore unsolved Atari games
and surpasses the state of the art on all hard-exploration games, with orders
of magnitude improvements on the grand challenges Montezuma's Revenge and
Pitfall. We also demonstrate the practical potential of Go-Explore on a
sparse-reward pick-and-place robotics task. Additionally, we show that adding a
goal-conditioned policy can further improve Go-Explore's exploration efficiency
and enable it to handle stochasticity throughout training. The substantial
performance gains from Go-Explore suggest that the simple principles of
remembering states, returning to them, and exploring from them are a powerful
and general approach to exploration, an insight that may prove critical to the
creation of truly intelligent learning agents.
- Abstract(参考訳): 強化学習の約束は、高度な報酬関数のみを指定することで、複雑な逐次的決定問題を自律的に解くことである。
しかし、強化学習アルゴリズムは、しばしばそうであるように、単純で直感的な報酬がスパースで欺きやすいフィードバックを提供する場合に苦労する。
これらの落とし穴を避けるには、環境を徹底的に調査する必要があるが、それを可能にするアルゴリズムを作成することは、この分野の中心的な課題の1つだ。
効果的な探索の主な障害は、以前に訪れた状態への到達方法を忘れるアルゴリズム("detachment")と、それから探索する前に最初に状態に戻ることができないこと("derailment")に起因していると仮定する。
これは、有望な状態を明示的に記憶し、意図的に探索する前に最初にそのような状態に戻るという単純な原則を通じて、これらの2つの課題に直接対処するアルゴリズムのファミリーです。
go-exploreは、未解決のatariゲームをすべて解決し、すべてのハードエクスプロレーションゲームにおける最先端技術を超え、モンテズマの復讐と落とし穴に対する大きな挑戦を桁違いに改善している。
また,ロボット工学タスクにおけるgo-exploreの実用性を示す。
さらに,目標条件ポリシーの追加により,go-exploreの探索効率がさらに向上し,トレーニングを通して確率性に対処できることを示した。
go-exploreによる実質的なパフォーマンス向上は、状態を覚え、それに戻って探索するという単純な原則が、真のインテリジェントな学習エージェントの作成に不可欠である可能性を示す、強力で一般的な探索アプローチであることを示唆している。
関連論文リスト
- Intelligent Go-Explore: Standing on the Shoulders of Giant Foundation Models [5.404186221463082]
Go-Exploreは、ハード探索問題を解決するために設計されたアルゴリズムの強力なファミリーである。
本稿では,従来の Go-Explore の範囲を大きく広げる Intelligent Go-Explore (IGE) を提案する。
IGEには人間のような能力があり、新しい状態がいかに面白く、あるいは有望であるかを直感的に識別する能力がある。
論文 参考訳(メタデータ) (2024-05-24T01:45:27Z) - Curiosity-Driven Reinforcement Learning based Low-Level Flight Control [95.42181254494287]
本研究では,オドメトリデータから適切な運動速度を生成することにより,自律学習のための好奇心の駆動に基づくアルゴリズムを提案する。
探索パターンの進化における好奇心の効果を可視化したアルゴリズムとアルゴリズムを用いて、オン・ポリティ、オフ・ポリティ、オン・ポリティ、オン・ポリティと好奇心を用いたテストを実行した。
論文 参考訳(メタデータ) (2023-07-28T11:46:28Z) - Time-Myopic Go-Explore: Learning A State Representation for the
Go-Explore Paradigm [0.5156484100374059]
時間的近接状態をクラスタリングする新しい時間的ミオピック状態表現を導入する。
手作り表現を使わずに、新規性を確実に推定する最初の学習状態表現を実証する。
本研究は,モンテズマレブンジュ,グラビタール,フロストビテ(アタリ)の硬い探査環境について評価した。
論文 参考訳(メタデータ) (2023-01-13T16:13:44Z) - First Go, then Post-Explore: the Benefits of Post-Exploration in
Intrinsic Motivation [7.021281655855703]
Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。
Go-Exploreの主な洞察は、調査を成功させるためには、エージェントが最初に興味深い状態に戻る必要があります。
目標達成後の探査を「後探査」と呼ぶ。
論文 参考訳(メタデータ) (2022-12-06T18:56:47Z) - Generative Adversarial Exploration for Reinforcement Learning [48.379457575356454]
本稿では, GAEX (Generative Adversarial Explor) と呼ばれる新しい手法を提案し, 強化学習における探索を奨励する。
実験では,ゲームVenture,Montzuma's Revenge,Super Mario BrosにGAEXを適用した。
我々の知る限り、これはRL探査問題にGANを用いた最初の研究である。
論文 参考訳(メタデータ) (2022-01-27T17:34:47Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文 参考訳(メタデータ) (2020-12-15T21:26:54Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。