論文の概要: Cell-Free Latent Go-Explore
- arxiv url: http://arxiv.org/abs/2208.14928v1
- Date: Wed, 31 Aug 2022 15:52:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-01 13:02:07.998327
- Title: Cell-Free Latent Go-Explore
- Title(参考訳): 細胞フリーの遅延 Go-Explore
- Authors: Quentin Gallou\'edec and Emmanuel Dellandr\'ea
- Abstract要約: 我々は、強化学習(RL)における探索のためのGo-Exploreパラダイムに基づく、シンプルで一般的なアプローチであるLatent Go-Explore(LGE)を紹介する。
Go-Exploreは当初、状態空間をセルに分割するための強力なドメイン知識制約とともに導入された。
We show that LGE, but simple than Go-Explore is more robust and outperforms all state-of-the-art algorithm in terms of pure exploration。
- 参考スコア(独自算出の注目度): 3.1868913341776106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce Latent Go-Explore (LGE), a simple and general
approach based on the Go-Explore paradigm for exploration in reinforcement
learning (RL). Go-Explore was initially introduced with a strong domain
knowledge constraint for partitioning the state space into cells. However, in
most real-world scenarios, drawing domain knowledge from raw observations is
complex and tedious. If the cell partitioning is not informative enough,
Go-Explore can completely fail to explore the environment. We argue that the
Go-Explore approach can be generalized to any environment without domain
knowledge and without cells by exploiting a learned latent representation.
Thus, we show that LGE can be flexibly combined with any strategy for learning
a latent representation. We show that LGE, although simpler than Go-Explore, is
more robust and outperforms all state-of-the-art algorithms in terms of pure
exploration on multiple hard-exploration environments. The LGE implementation
is available as open-source at https://github.com/qgallouedec/lge.
- Abstract(参考訳): 本稿では、強化学習(RL)における探索のためのGo-Exploreパラダイムに基づく、単純かつ一般的なアプローチであるLatent Go-Explore(LGE)を紹介する。
Go-Exploreは当初、状態空間をセルに分割するための強力なドメイン知識制約とともに導入された。
しかし、現実世界のほとんどのシナリオでは、生の観測からドメイン知識を引き出すのは複雑で面倒である。
細胞分割が十分な情報を持っていなければ、Go-Exploreは環境の探索に完全に失敗する可能性がある。
Go-Exploreのアプローチは、学習された潜在表現を活用すれば、ドメイン知識やセルなしで任意の環境に一般化できると論じる。
したがって,lgeは潜在表現を学習するための任意の戦略と柔軟に結合できることを示す。
LGEは、Go-Exploreよりシンプルだが、より堅牢で、複数のハード探索環境における純粋探索の観点から、最先端のアルゴリズムよりも優れていることを示す。
LGEの実装はhttps://github.com/qgallouedec/lgeでオープンソースとして公開されている。
関連論文リスト
- METRA: Scalable Unsupervised RL with Metric-Aware Abstraction [69.90741082762646]
Metric-Aware Abstraction (METRA)は、教師なし強化学習の新たな目標である。
潜在空間のあらゆる方向に移動することを学ぶことで、METRAは様々な振る舞いの抽出可能な集合を得る。
複雑なピクセルベースの環境においても,METRAは様々な有用な振る舞いを発見できることを示す。
論文 参考訳(メタデータ) (2023-10-13T06:43:11Z) - Exploring the Potential of Large Language Models (LLMs) in Learning on
Graphs [59.74814230246034]
大規模言語モデル(LLM)は、広範な共通知識と強力な意味理解能力を持つことが証明されている。
LLMs-as-EnhancersとLLMs-as-Predictorsの2つのパイプラインについて検討する。
論文 参考訳(メタデータ) (2023-07-07T05:31:31Z) - Efficient GNN Explanation via Learning Removal-based Attribution [56.18049062940675]
本稿では,LARA (LeArn removal-based Attribution) というGNN説明の枠組みを提案し,この問題に対処する。
LARAの解説者は、高い忠実度で説明を提供することができる除去に基づく属性を生成することを学ぶ。
特に、LARAは3.5倍高速で、大きなデータセットogbn-arxivの最先端の手法よりも忠実である。
論文 参考訳(メタデータ) (2023-06-09T08:54:20Z) - Time-Myopic Go-Explore: Learning A State Representation for the
Go-Explore Paradigm [0.5156484100374059]
時間的近接状態をクラスタリングする新しい時間的ミオピック状態表現を導入する。
手作り表現を使わずに、新規性を確実に推定する最初の学習状態表現を実証する。
本研究は,モンテズマレブンジュ,グラビタール,フロストビテ(アタリ)の硬い探査環境について評価した。
論文 参考訳(メタデータ) (2023-01-13T16:13:44Z) - First Go, then Post-Explore: the Benefits of Post-Exploration in
Intrinsic Motivation [7.021281655855703]
Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。
Go-Exploreの主な洞察は、調査を成功させるためには、エージェントが最初に興味深い状態に戻る必要があります。
目標達成後の探査を「後探査」と呼ぶ。
論文 参考訳(メタデータ) (2022-12-06T18:56:47Z) - BYOL-Explore: Exploration by Bootstrapped Prediction [49.221173336814225]
BYOL-Exploreは、視覚的に複雑な環境で好奇心を駆使した探索のための概念的には単純だが一般的なアプローチである。
BYOL-Explore は DM-HARD-8 において有効であることを示す。
論文 参考訳(メタデータ) (2022-06-16T17:36:15Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - First return, then explore [18.876005532689234]
Go-Exploreは、有望な状態を明示的に記憶し、意図的に探索する前に最初にそのような状態に戻るアルゴリズムのファミリーである。
Go-Exploreは、これまで未解決だったAtariゲームをすべて解決し、ハード探索ゲームにおける最先端の技術を超越している。
目標条件付きポリシーを追加することで、Go-Exploreの探索効率をさらに向上し、トレーニング全体を通して処理できることを示す。
論文 参考訳(メタデータ) (2020-04-27T16:31:26Z) - Sparse Graphical Memory for Robust Planning [93.39298821537197]
スパースメモリに状態と実現可能な遷移を格納する新しいデータ構造であるスパースグラフィカルメモリ(SGM)を導入する。
SGMは、ゴール条件付きRLに古典的状態集約基準を適用し、新しい双方向整合目標に従って状態を集約する。
本研究では, SGM が, 遠近法, スパース・リワード視覚ナビゲーションタスクにおいて, 最先端の工法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-03-13T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。