論文の概要: Self-Supervised Exploration via Latent Bayesian Surprise
- arxiv url: http://arxiv.org/abs/2104.07495v1
- Date: Thu, 15 Apr 2021 14:40:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 22:05:21.021798
- Title: Self-Supervised Exploration via Latent Bayesian Surprise
- Title(参考訳): 潜在ベイズサプライズによる自己監視探査
- Authors: Pietro Mazzaglia, Ozan Catal, Tim Verbelen, Bart Dhoedt
- Abstract要約: 本研究では,強化学習に固有の報酬として,好奇心に基づくボーナスを提案する。
環境調査の観点から、エージェントの性能を計測し、モデルを幅広く評価します。
我々のモデルは安価で経験的にいくつかの問題に対して最先端の性能を示す。
- 参考スコア(独自算出の注目度): 4.088019409160893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training with Reinforcement Learning requires a reward function that is used
to guide the agent towards achieving its objective. However, designing smooth
and well-behaved rewards is in general not trivial and requires significant
human engineering efforts. Generating rewards in self-supervised way, by
inspiring the agent with an intrinsic desire to learn and explore the
environment, might induce more general behaviours. In this work, we propose a
curiosity-based bonus as intrinsic reward for Reinforcement Learning, computed
as the Bayesian surprise with respect to a latent state variable, learnt by
reconstructing fixed random features. We extensively evaluate our model by
measuring the agent's performance in terms of environment exploration, for
continuous tasks, and looking at the game scores achieved, for video games. Our
model is computationally cheap and empirically shows state-of-the-art
performance on several problems. Furthermore, experimenting on an environment
with stochastic actions, our approach emerged to be the most resilient to
simple stochasticity. Further visualization is available on the project
webpage.(https://lbsexploration.github.io/)
- Abstract(参考訳): 強化学習によるトレーニングには、エージェントがその目的を達成するために使用される報酬機能が必要である。
しかし、スムーズで十分に配慮された報酬の設計は、一般的には簡単ではなく、重要な人間工学的努力を必要とする。
自己監督的な方法で報酬を生成することは、エージェントに本質的な欲求を与え、環境を学び、探索することで、より一般的な行動を引き起こす可能性がある。
本研究では,不規則な特徴を再構築して学習する潜在状態変数に対するベイズ奇襲として計算される強化学習に対する内在的な報酬として,好奇心に基づくボーナスを提案する。
我々は,ゲームにおける環境探索,継続作業,ゲームスコアの把握という観点からエージェントのパフォーマンスを計測し,評価を行った。
我々のモデルは計算的に安価であり、いくつかの問題に対する最先端の性能を実証的に示す。
さらに, 確率的行動を伴う環境実験を行った結果, 単純な確率的行動に対して最も弾力性のあるアプローチが得られた。
さらなる可視化はプロジェクトのwebページで確認できる。
(https://lbsexploration.github.io/)
関連論文リスト
- Go Beyond Imagination: Maximizing Episodic Reachability with World
Models [68.91647544080097]
本稿では,GoBI-Go Beyond Imaginationという新たな固有報酬設計を提案する。
学習した世界モデルを用いて、ランダムな動作で予測された将来の状態を生成する。
本手法は,Minigridナビゲーションタスクの12の課題において,従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-25T20:30:20Z) - Successor-Predecessor Intrinsic Exploration [18.440869985362998]
本研究は,内因性報酬を用いた探索に焦点を当て,エージェントが自己生成型内因性報酬を用いて外因性報酬を過渡的に増強する。
本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。
本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-24T16:02:51Z) - Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Automatic Reward Design via Learning Motivation-Consistent Intrinsic
Rewards [46.068337522093096]
報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。
提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-29T14:52:02Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。