論文の概要: BYOL-Explore: Exploration by Bootstrapped Prediction
- arxiv url: http://arxiv.org/abs/2206.08332v1
- Date: Thu, 16 Jun 2022 17:36:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 13:56:25.779198
- Title: BYOL-Explore: Exploration by Bootstrapped Prediction
- Title(参考訳): BYOL-Explore: ブートストラップ予測による探索
- Authors: Zhaohan Daniel Guo, Shantanu Thakoor, Miruna P\^islar, Bernardo Avila
Pires, Florent Altch\'e, Corentin Tallec, Alaa Saade, Daniele Calandriello,
Jean-Bastien Grill, Yunhao Tang, Michal Valko, R\'emi Munos, Mohammad
Gheshlaghi Azar, Bilal Piot
- Abstract要約: BYOL-Exploreは、視覚的に複雑な環境で好奇心を駆使した探索のための概念的には単純だが一般的なアプローチである。
BYOL-Explore は DM-HARD-8 において有効であることを示す。
- 参考スコア(独自算出の注目度): 49.221173336814225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present BYOL-Explore, a conceptually simple yet general approach for
curiosity-driven exploration in visually-complex environments. BYOL-Explore
learns a world representation, the world dynamics, and an exploration policy
all-together by optimizing a single prediction loss in the latent space with no
additional auxiliary objective. We show that BYOL-Explore is effective in
DM-HARD-8, a challenging partially-observable continuous-action
hard-exploration benchmark with visually-rich 3-D environments. On this
benchmark, we solve the majority of the tasks purely through augmenting the
extrinsic reward with BYOL-Explore s intrinsic reward, whereas prior work could
only get off the ground with human demonstrations. As further evidence of the
generality of BYOL-Explore, we show that it achieves superhuman performance on
the ten hardest exploration games in Atari while having a much simpler design
than other competitive agents.
- Abstract(参考訳): BYOL-Exploreは、視覚的に複雑な環境での好奇心駆動探索のための概念的に単純だが一般的なアプローチである。
byol-exploreは、潜在空間における単一の予測損失を、追加の目的なしに最適化することで、世界表現、世界ダイナミクス、探査政策を全て学習する。
BYOL-Exploreは、視覚的にリッチな3次元環境を持つ、部分的に観察可能な連続動作ハード探索ベンチマークであるDM-HARD-8で有効であることを示す。
本ベンチマークでは,BYOL-Explore s intrinsic reward を用いて外因性報酬を増大させることにより,タスクの大部分を純粋に解決する。
BYOL-Exploreの一般化のさらなる証拠として、他の競争エージェントよりもはるかにシンプルな設計をしながら、アタリで最も難しい10個の探索ゲームにおいて超人的な性能を達成することを示す。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Intelligent Go-Explore: Standing on the Shoulders of Giant Foundation Models [5.404186221463082]
Go-Exploreは、ハード探索問題を解決するために設計されたアルゴリズムの強力なファミリーである。
本稿では,従来の Go-Explore の範囲を大きく広げる Intelligent Go-Explore (IGE) を提案する。
IGEには人間のような能力があり、新しい状態がいかに面白く、あるいは有望であるかを直感的に識別する能力がある。
論文 参考訳(メタデータ) (2024-05-24T01:45:27Z) - Successor-Predecessor Intrinsic Exploration [18.440869985362998]
本研究は,内因性報酬を用いた探索に焦点を当て,エージェントが自己生成型内因性報酬を用いて外因性報酬を過渡的に増強する。
本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。
本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-24T16:02:51Z) - First Go, then Post-Explore: the Benefits of Post-Exploration in
Intrinsic Motivation [7.021281655855703]
Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。
Go-Exploreの主な洞察は、調査を成功させるためには、エージェントが最初に興味深い状態に戻る必要があります。
目標達成後の探査を「後探査」と呼ぶ。
論文 参考訳(メタデータ) (2022-12-06T18:56:47Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Benchmarking the Spectrum of Agent Capabilities [7.088856621650764]
本稿では,1つの環境における幅広い汎用能力を評価する視覚入力を備えたオープンワールドサバイバルゲームであるCrafterを紹介する。
エージェントは提供された報酬信号や本質的な目的を通じて学習し、意味的に意味のある成果によって評価される。
我々は、Crafterが将来の研究を推進するのに適切な困難であることを実験的に検証し、報酬エージェントと教師なしエージェントのベースラインスコアを提供する。
論文 参考訳(メタデータ) (2021-09-14T15:49:31Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Fast active learning for pure exploration in reinforcement learning [48.98199700043158]
1/n$でスケールしたボーナスはより高速な学習率をもたらし、地平線への依存に関して既知の上限を改善します。
また, 停止時間の解析を改良することにより, 最良政体識別設定におけるサンプルの複雑さを$H$で改善できることも示している。
論文 参考訳(メタデータ) (2020-07-27T11:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。