論文の概要: Time-Myopic Go-Explore: Learning A State Representation for the
Go-Explore Paradigm
- arxiv url: http://arxiv.org/abs/2301.05635v1
- Date: Fri, 13 Jan 2023 16:13:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 15:02:07.196955
- Title: Time-Myopic Go-Explore: Learning A State Representation for the
Go-Explore Paradigm
- Title(参考訳): Time-Myopic Go-Explore: Go-Exploreパラダイムのステート表現を学ぶ
- Authors: Marc H\"oftmann, Jan Robine, Stefan Harmeling
- Abstract要約: 時間的近接状態をクラスタリングする新しい時間的ミオピック状態表現を導入する。
手作り表現を使わずに、新規性を確実に推定する最初の学習状態表現を実証する。
本研究は,モンテズマレブンジュ,グラビタール,フロストビテ(アタリ)の硬い探査環境について評価した。
- 参考スコア(独自算出の注目度): 0.5156484100374059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Very large state spaces with a sparse reward signal are difficult to explore.
The lack of a sophisticated guidance results in a poor performance for numerous
reinforcement learning algorithms. In these cases, the commonly used random
exploration is often not helpful. The literature shows that this kind of
environments require enormous efforts to systematically explore large chunks of
the state space. Learned state representations can help here to improve the
search by providing semantic context and build a structure on top of the raw
observations. In this work we introduce a novel time-myopic state
representation that clusters temporal close states together while providing a
time prediction capability between them. By adapting this model to the
Go-Explore paradigm (Ecoffet et al., 2021b), we demonstrate the first learned
state representation that reliably estimates novelty instead of using the
hand-crafted representation heuristic. Our method shows an improved solution
for the detachment problem which still remains an issue at the Go-Explore
Exploration Phase. We provide evidence that our proposed method covers the
entire state space with respect to all possible time trajectories without
causing disadvantageous conflict-overlaps in the cell archive. Analogous to
native Go-Explore, our approach is evaluated on the hard exploration
environments MontezumaRevenge, Gravitar and Frostbite (Atari) in order to
validate its capabilities on difficult tasks. Our experiments show that
time-myopic Go-Explore is an effective alternative for the domain-engineered
heuristic while also being more general. The source code of the method is
available on GitHub.
- Abstract(参考訳): 粗い報酬信号を持つ非常に大きな状態空間を探索することは困難である。
高度なガイダンスが欠如しているため、多くの強化学習アルゴリズムの性能は低い。
このような場合、よく使われるランダム探索は役に立たないことが多い。
この文献は、この種の環境は、州空間の大きな部分を体系的に探索するために巨大な努力を必要とすることを示している。
学習された状態表現は、セマンティックコンテキストを提供し、生の観察の上に構造を構築することによって、検索を改善するのに役立つ。
本研究では,時間的近接状態の集団化と時間予測の両立を両立させる新しい時間-筋的状態表現を提案する。
このモデルをGo-Exploreパラダイム(Ecoffet et al., 2021b)に適用することにより、手作りの表現ヒューリスティックではなく、新規性を確実に推定する最初の学習状態表現を実証する。
本手法は,Go-Explore Exploration Phaseにおいてまだ問題である分断問題に対する改善された解法を示す。
提案手法は, セルアーカイブに不利なコンフリクトオーバーラップを生じさせることなく, 全時間トラジェクトリに対して, 状態空間全体をカバーしていることを示す。
ネイティブなGo-Exploreと対比して,モンテズマレブンジュ,グラビタール,フロストビテ(アタリ)などのハード探査環境において,その能力の検証を行う。
実験の結果, 時相Go-Exploreはドメイン工学的ヒューリスティックに有効な代替手段であり, より汎用的であることがわかった。
メソッドのソースコードはGitHubで公開されている。
関連論文リスト
- Intelligent Go-Explore: Standing on the Shoulders of Giant Foundation Models [5.404186221463082]
Go-Exploreは、ハード探索問題を解決するために設計されたアルゴリズムの強力なファミリーである。
本稿では,従来の Go-Explore の範囲を大きく広げる Intelligent Go-Explore (IGE) を提案する。
IGEには人間のような能力があり、新しい状態がいかに面白く、あるいは有望であるかを直感的に識別する能力がある。
論文 参考訳(メタデータ) (2024-05-24T01:45:27Z) - Generalizing Multi-Step Inverse Models for Representation Learning to Finite-Memory POMDPs [23.584313644411967]
本研究では,関連する情報のみを符号化し,無関係な情報を破棄する情報的,あるいはエージェント中心の状態表現の発見問題について検討する。
我々の結果は、決定論的力学設定の理論と、代替直観的アルゴリズムの反例を含む。
アルゴリズムを正しく使用した場合に成功させ、正しく使用した場合に劇的な失敗を引き起こす。
論文 参考訳(メタデータ) (2024-04-22T19:46:16Z) - Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文 参考訳(メタデータ) (2022-03-21T22:07:48Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Latent World Models For Intrinsically Motivated Exploration [140.21871701134626]
画像に基づく観察のための自己教師付き表現学習法を提案する。
我々は、部分的に観測可能な環境の探索を導くために、エピソードおよび寿命の不確実性を考慮する。
論文 参考訳(メタデータ) (2020-10-05T19:47:04Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - First return, then explore [18.876005532689234]
Go-Exploreは、有望な状態を明示的に記憶し、意図的に探索する前に最初にそのような状態に戻るアルゴリズムのファミリーである。
Go-Exploreは、これまで未解決だったAtariゲームをすべて解決し、ハード探索ゲームにおける最先端の技術を超越している。
目標条件付きポリシーを追加することで、Go-Exploreの探索効率をさらに向上し、トレーニング全体を通して処理できることを示す。
論文 参考訳(メタデータ) (2020-04-27T16:31:26Z) - Sparse Graphical Memory for Robust Planning [93.39298821537197]
スパースメモリに状態と実現可能な遷移を格納する新しいデータ構造であるスパースグラフィカルメモリ(SGM)を導入する。
SGMは、ゴール条件付きRLに古典的状態集約基準を適用し、新しい双方向整合目標に従って状態を集約する。
本研究では, SGM が, 遠近法, スパース・リワード視覚ナビゲーションタスクにおいて, 最先端の工法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-03-13T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。