論文の概要: Latent World Models For Intrinsically Motivated Exploration
- arxiv url: http://arxiv.org/abs/2010.02302v1
- Date: Mon, 5 Oct 2020 19:47:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 19:54:34.539454
- Title: Latent World Models For Intrinsically Motivated Exploration
- Title(参考訳): 先進的なモチベーションをモチベーションする世界モデル
- Authors: Aleksandr Ermolov, Nicu Sebe
- Abstract要約: 画像に基づく観察のための自己教師付き表現学習法を提案する。
我々は、部分的に観測可能な環境の探索を導くために、エピソードおよび寿命の不確実性を考慮する。
- 参考スコア(独自算出の注目度): 140.21871701134626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we consider partially observable environments with sparse
rewards. We present a self-supervised representation learning method for
image-based observations, which arranges embeddings respecting temporal
distance of observations. This representation is empirically robust to
stochasticity and suitable for novelty detection from the error of a predictive
forward model. We consider episodic and life-long uncertainties to guide the
exploration. We propose to estimate the missing information about the
environment with the world model, which operates in the learned latent space.
As a motivation of the method, we analyse the exploration problem in a tabular
Partially Observable Labyrinth. We demonstrate the method on image-based hard
exploration environments from the Atari benchmark and report significant
improvement with respect to prior work. The source code of the method and all
the experiments is available at https://github.com/htdt/lwm.
- Abstract(参考訳): この作業では、スパース報酬を伴う部分的に観測可能な環境について検討します。
本稿では,観察の時間的距離に関する埋め込みを配置した画像ベース観察のための自己教師あり表現学習手法を提案する。
この表現は確率性に実証的に頑健であり、予測フォワードモデルの誤差から新しい発見に適している。
我々は探索を導くために、エピソディクスと生涯の不確実性を検討する。
本稿では,学習された潜在空間で動作する世界モデルを用いて,環境の不足情報を推定することを提案する。
本手法のモチベーションとして,表状部分観察可能な迷路の探索問題を解析する。
atariベンチマークを用いて,画像に基づくハードエクスプロレーション環境における手法を実証し,先行研究に関して有意な改善を報告した。
メソッドのソースコードとすべての実験はhttps://github.com/htdt/lwm.comで公開されている。
関連論文リスト
- Flipping Coins to Estimate Pseudocounts for Exploration in Reinforcement
Learning [20.0888026410406]
我々は,Rademacher分布の標本を平均化することにより,カウントを導出できることを示す。
提案手法は, 従来よりも地中訪問回数の低減に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-06-05T18:56:48Z) - Learning to Explore Informative Trajectories and Samples for Embodied
Perception [24.006056116516618]
未知の実施課題に対する知覚モデルの一般化は不十分である。
探索政策を自己管理する3次元意味分布マップを構築した。
そこで本研究では, 意味的分布の不確実性に基づいて, トラジェクトリのハードサンプルを選択することを提案する。
実験により,本手法で微調整した知覚モデルは,他の探索政策で訓練したベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-03-20T08:20:04Z) - TempSAL -- Uncovering Temporal Information for Deep Saliency Prediction [64.63645677568384]
本稿では,逐次時間間隔でサリエンシマップを出力する新たなサリエンシ予測モデルを提案する。
提案手法は,学習した時間マップを組み合わせることで,サリエンシ予測を局所的に調整する。
私たちのコードはGitHubで公開されます。
論文 参考訳(メタデータ) (2023-01-05T22:10:16Z) - Self-supervised Sequential Information Bottleneck for Robust Exploration
in Deep Reinforcement Learning [28.75574762244266]
本研究では、圧縮された時間的コヒーレントな表現を学習するためのシーケンシャルな情報ボトルネックの目標について紹介する。
ノイズの多い環境での効率的な探索のために,タスク関連状態の新規性を捉える本質的な報奨を更に構築する。
論文 参考訳(メタデータ) (2022-09-12T15:41:10Z) - Residual Overfit Method of Exploration [78.07532520582313]
提案手法は,2点推定値の調整と1点オーバーフィットに基づく近似探索手法を提案する。
このアプローチは、調整されたモデルと比較して、オーバーフィットモデルが最も過度な適合を示すアクションへの探索を促進する。
ROMEを3つのデータセット上の確立されたコンテキスト的帯域幅法と比較し、最も優れたパフォーマンスの1つとみなす。
論文 参考訳(メタデータ) (2021-10-06T17:05:33Z) - Glimpse-Attend-and-Explore: Self-Attention for Active Visual Exploration [47.01485765231528]
アクティブな視覚探索は、限られた視野を持つエージェントが部分的な観察に基づいて環境を理解するのを支援することを目的としている。
タスク固有の不確実性マップではなく、自己注意を用いて視覚探索をガイドするGlimpse-Attend-and-Exploreモデルを提案する。
私たちのモデルは、探索を駆動する際のデータセットバイアスに頼らずに、奨励的な結果を提供します。
論文 参考訳(メタデータ) (2021-08-26T11:41:03Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z) - Novelty Search in Representational Space for Sample Efficient
Exploration [38.2027946450689]
本稿では,モデルベースとモデルフリーを併用して学習した環境の低次元符号化を利用する,効率的な探索手法を提案する。
提案手法では,低次元表現空間における近接する近傍の距離に基づく固有報酬を用いて,新規性を測る。
次に、これらの本質的な報酬をサンプル効率の高い探索に利用し、表現空間における計画ルーチンを、疎度な報酬を伴うハードな探索タスクに活用する。
論文 参考訳(メタデータ) (2020-09-28T18:51:52Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。