論文の概要: Curiosity in hindsight
- arxiv url: http://arxiv.org/abs/2211.10515v1
- Date: Fri, 18 Nov 2022 21:49:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 18:27:10.568393
- Title: Curiosity in hindsight
- Title(参考訳): 後見の好奇心
- Authors: Daniel Jarrett, Corentin Tallec, Florent Altch\'e, Thomas Mesnard,
R\'emi Munos, Michal Valko
- Abstract要約: 世界の構造因果モデルから導かれる自然解について検討する。
エージェントのモデルにそのような近視表現を組み込むことを提案する。
我々は,非粘着条件下での性能を保ちながら,粘着作用の探索においてSOTAの結果を示す。
- 参考スコア(独自算出の注目度): 44.0810681836261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consider the exploration in sparse-reward or reward-free environments, such
as Montezuma's Revenge. The curiosity-driven paradigm dictates an intuitive
technique: At each step, the agent is rewarded for how much the realized
outcome differs from their predicted outcome. However, using predictive error
as intrinsic motivation is prone to fail in stochastic environments, as the
agent may become hopelessly drawn to high-entropy areas of the state-action
space, such as a noisy TV. Therefore it is important to distinguish between
aspects of world dynamics that are inherently predictable and aspects that are
inherently unpredictable: The former should constitute a source of intrinsic
reward, whereas the latter should not. In this work, we study a natural
solution derived from structural causal models of the world: Our key idea is to
learn representations of the future that capture precisely the unpredictable
aspects of each outcome -- not any more, not any less -- which we use as
additional input for predictions, such that intrinsic rewards do vanish in the
limit. First, we propose incorporating such hindsight representations into the
agent's model to disentangle "noise" from "novelty", yielding Curiosity in
Hindsight: a simple and scalable generalization of curiosity that is robust to
all types of stochasticity. Second, we implement this framework as a drop-in
modification of any prediction-based exploration bonus, and instantiate it for
the recently introduced BYOL-Explore algorithm as a prime example, resulting in
the noise-robust "BYOL-Hindsight". Third, we illustrate its behavior under
various stochasticities in a grid world, and find improvements over
BYOL-Explore in hard-exploration Atari games with sticky actions. Importantly,
we show SOTA results in exploring Montezuma with sticky actions, while
preserving performance in the non-sticky setting.
- Abstract(参考訳): モンテズマの復讐のようなスパース・リワードや報酬のない環境での探検を考える。
好奇心駆動のパラダイムは直感的なテクニックを規定する: 各ステップでエージェントは、実現された結果が予測された結果とどの程度異なるかに報酬を受ける。
しかし, 予測誤差を本質的動機として用いることは, 確率的環境下では失敗する傾向にあり, ノイズテレビなど, 状態動作空間の高エントロピー領域にエージェントが期待できないほど引き寄せられる可能性がある。
したがって、本質的に予測可能な世界力学の側面と、本質的に予測できない側面を区別することが重要である:前者は内在的な報酬の源を構成するべきであるが、後者はそうすべきではない。
この研究では、世界の構造因果モデルから導かれる自然な解について研究する: 我々の鍵となる考え方は、各結果の予測不可能な側面を正確に捉えた未来の表現を学習することである。
まず、このような後見表現をエージェントのモデルに組み込んで、"novelty"から"noise"を解き、"hindsight"の好奇心を生み出す。
第二に、このフレームワークは予測に基づく探索ボーナスのドロップイン修正として実装され、最近導入されたBYOL-Exploreアルゴリズムを主例としてインスタンス化する。
第3に,グリッド世界における様々な確率性の下での動作を概説し,頑健な探索型アタリゲームにおけるBYOL-Exploreよりも改善した。
また, 粘着作用のあるモンテズマを探索し, 非粘着条件下での性能を維持した。
関連論文リスト
- The Exploration-Exploitation Dilemma Revisited: An Entropy Perspective [18.389232051345825]
政策最適化において、探索への過度な依存は学習効率を低下させる一方、搾取への過度な依存は、局地的最適化においてエージェントを罠にする可能性がある。
本稿では,エントロピーの観点から,探査・探査ジレンマを再考する。
我々は、AdaZeroと呼ばれるエンドツーエンド適応フレームワークを構築し、探索するか、活用するかを自動的に決定する。
論文 参考訳(メタデータ) (2024-08-19T13:21:46Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - Improving Self-supervised Learning with Automated Unsupervised Outlier
Arbitration [83.29856873525674]
本稿では,自己教師型学習のためのビューサンプリング問題を対象とした,軽量潜在変数モデル UOTA を提案する。
本手法は,多くの主流な自己指導型学習手法に直接応用する。
論文 参考訳(メタデータ) (2021-12-15T14:05:23Z) - Self-Supervised Exploration via Latent Bayesian Surprise [4.088019409160893]
本研究では,強化学習に固有の報酬として,好奇心に基づくボーナスを提案する。
環境調査の観点から、エージェントの性能を計測し、モデルを幅広く評価します。
我々のモデルは安価で経験的にいくつかの問題に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2021-04-15T14:40:16Z) - How to Stay Curious while Avoiding Noisy TVs using Aleatoric Uncertainty Estimation [8.61325246419028]
少ない報奨のある環境を探索するためのアレータリックマッピングエージェント(AMA)を提案する。
AMAは、これらのダイナミクスがエージェントの作用によって引き起こされるかどうかにかかわらず、環境のどのダイナミクスが予測不可能であるかを明確に確認する。
AMAは、従来の好奇心誘導剤を固定する行動依存トラップを効果的に回避できることを示す。
論文 参考訳(メタデータ) (2021-02-08T18:05:08Z) - Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - Latent World Models For Intrinsically Motivated Exploration [140.21871701134626]
画像に基づく観察のための自己教師付き表現学習法を提案する。
我々は、部分的に観測可能な環境の探索を導くために、エピソードおよび寿命の不確実性を考慮する。
論文 参考訳(メタデータ) (2020-10-05T19:47:04Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。