論文の概要: Intrinsic Motivation via Surprise Memory
- arxiv url: http://arxiv.org/abs/2308.04836v1
- Date: Wed, 9 Aug 2023 09:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 14:13:09.644355
- Title: Intrinsic Motivation via Surprise Memory
- Title(参考訳): サプライズメモリによる固有の動機づけ
- Authors: Hung Le, Kien Do, Dung Nguyen, Svetha Venkatesh
- Abstract要約: 本稿では、既存のサプライズ駆動探索の限界に対処する強化学習における本質的な報奨のための新しい計算モデルを提案する。
本稿では,サプライズを記憶ネットワークの検索エラーとして推定し,サプライズを記憶・再構成する。
我々のサプライズメモリ(SM)は、サプライズベースの固有のモチベーターの能力を増強し、エージェントのエキサイティングな探索への関心を維持しながら、望ましくないアトラクションを予測不可能またはノイズの多い観測に還元する。
- 参考スコア(独自算出の注目度): 56.65977940441001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new computing model for intrinsic rewards in reinforcement
learning that addresses the limitations of existing surprise-driven
explorations. The reward is the novelty of the surprise rather than the
surprise norm. We estimate the surprise novelty as retrieval errors of a memory
network wherein the memory stores and reconstructs surprises. Our surprise
memory (SM) augments the capability of surprise-based intrinsic motivators,
maintaining the agent's interest in exciting exploration while reducing
unwanted attraction to unpredictable or noisy observations. Our experiments
demonstrate that the SM combined with various surprise predictors exhibits
efficient exploring behaviors and significantly boosts the final performance in
sparse reward environments, including Noisy-TV, navigation and challenging
Atari games.
- Abstract(参考訳): 我々は,既存のサプライズ駆動探索の限界に対処する強化学習における内在的な報酬のための新しい計算モデルを提案する。
報酬は驚きの規範というよりも、驚きの斬新さです。
本稿では,サプライズを記憶ネットワークの検索エラーとして推定し,サプライズを記憶・再構成する。
我々のサプライズメモリ(SM)は、サプライズベースの固有のモチベーターの能力を増強し、エージェントのエキサイティングな探索への関心を維持しながら、望ましくないアトラクションを予測不可能またはノイズの多い観測に還元する。
実験の結果,SMと各種のサプライズ予測器を組み合わせることで,探索行動の効率が向上し,ノイズTV,ナビゲーション,アタリゲームなどの粗末な報奨環境における最終性能が著しく向上することがわかった。
関連論文リスト
- Intrinsic Rewards for Exploration without Harm from Observational Noise: A Simulation Study Based on the Free Energy Principle [3.6985126664461037]
強化学習(Reinforcement Learning, RL)では、タスクを実行することで数値報酬を最大化するために、人工エージェントを訓練する。
本稿では, 潜伏変数の予測的事前確率と後続確率とのKL偏差によりエージェントに報酬を与える隠れ状態好奇性を提案する。
論文 参考訳(メタデータ) (2024-05-13T05:18:23Z) - Go Beyond Imagination: Maximizing Episodic Reachability with World
Models [68.91647544080097]
本稿では,GoBI-Go Beyond Imaginationという新たな固有報酬設計を提案する。
学習した世界モデルを用いて、ランダムな動作で予測された将来の状態を生成する。
本手法は,Minigridナビゲーションタスクの12の課題において,従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-25T20:30:20Z) - Never Explore Repeatedly in Multi-Agent Reinforcement Learning [40.35950679063337]
我々は「リビジョン」と戦うための動的報酬スケーリング手法を提案する。
Google Research FootballやStarCraft IIのマイクロマネジメントタスクのような需要のある環境におけるパフォーマンスの向上を示す。
論文 参考訳(メタデータ) (2023-08-19T05:27:48Z) - Successor-Predecessor Intrinsic Exploration [18.440869985362998]
本研究は,内因性報酬を用いた探索に焦点を当て,エージェントが自己生成型内因性報酬を用いて外因性報酬を過渡的に増強する。
本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。
本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-24T16:02:51Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - BYOL-Explore: Exploration by Bootstrapped Prediction [49.221173336814225]
BYOL-Exploreは、視覚的に複雑な環境で好奇心を駆使した探索のための概念的には単純だが一般的なアプローチである。
BYOL-Explore は DM-HARD-8 において有効であることを示す。
論文 参考訳(メタデータ) (2022-06-16T17:36:15Z) - Is Curiosity All You Need? On the Utility of Emergent Behaviours from
Curious Exploration [20.38772636693469]
我々は、好奇心を高速な環境探索や、特定のタスクに対するボーナス報酬として使うだけでは、この手法の潜在能力を最大限に活用できないと論じている。
好奇心に基づく学習において出現する行動の維持に焦点を移すことを提案する。
論文 参考訳(メタデータ) (2021-09-17T15:28:25Z) - Self-Supervised Exploration via Latent Bayesian Surprise [4.088019409160893]
本研究では,強化学習に固有の報酬として,好奇心に基づくボーナスを提案する。
環境調査の観点から、エージェントの性能を計測し、モデルを幅広く評価します。
我々のモデルは安価で経験的にいくつかの問題に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2021-04-15T14:40:16Z) - Noisy Agents: Self-supervised Exploration by Predicting Auditory Events [127.82594819117753]
本稿では, エージェントが行動の因果的影響を理解することを奨励する, 強化学習(Reinforcement Learning, RL)の本質的なモチベーションを提案する。
ニューラルネットワークを用いて聴覚事象を予測し、予測誤差を本質的な報奨として利用し、RL探索を誘導する。
Atariゲームの実験結果から、我々の新しい本質的な動機は、最先端のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:59:08Z) - Fast active learning for pure exploration in reinforcement learning [48.98199700043158]
1/n$でスケールしたボーナスはより高速な学習率をもたらし、地平線への依存に関して既知の上限を改善します。
また, 停止時間の解析を改良することにより, 最良政体識別設定におけるサンプルの複雑さを$H$で改善できることも示している。
論文 参考訳(メタデータ) (2020-07-27T11:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。