論文の概要: Self-Supervised Exploration via Latent Bayesian Surprise
- arxiv url: http://arxiv.org/abs/2104.07495v1
- Date: Thu, 15 Apr 2021 14:40:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 22:05:21.021798
- Title: Self-Supervised Exploration via Latent Bayesian Surprise
- Title(参考訳): 潜在ベイズサプライズによる自己監視探査
- Authors: Pietro Mazzaglia, Ozan Catal, Tim Verbelen, Bart Dhoedt
- Abstract要約: 本研究では,強化学習に固有の報酬として,好奇心に基づくボーナスを提案する。
環境調査の観点から、エージェントの性能を計測し、モデルを幅広く評価します。
我々のモデルは安価で経験的にいくつかの問題に対して最先端の性能を示す。
- 参考スコア(独自算出の注目度): 4.088019409160893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training with Reinforcement Learning requires a reward function that is used
to guide the agent towards achieving its objective. However, designing smooth
and well-behaved rewards is in general not trivial and requires significant
human engineering efforts. Generating rewards in self-supervised way, by
inspiring the agent with an intrinsic desire to learn and explore the
environment, might induce more general behaviours. In this work, we propose a
curiosity-based bonus as intrinsic reward for Reinforcement Learning, computed
as the Bayesian surprise with respect to a latent state variable, learnt by
reconstructing fixed random features. We extensively evaluate our model by
measuring the agent's performance in terms of environment exploration, for
continuous tasks, and looking at the game scores achieved, for video games. Our
model is computationally cheap and empirically shows state-of-the-art
performance on several problems. Furthermore, experimenting on an environment
with stochastic actions, our approach emerged to be the most resilient to
simple stochasticity. Further visualization is available on the project
webpage.(https://lbsexploration.github.io/)
- Abstract(参考訳): 強化学習によるトレーニングには、エージェントがその目的を達成するために使用される報酬機能が必要である。
しかし、スムーズで十分に配慮された報酬の設計は、一般的には簡単ではなく、重要な人間工学的努力を必要とする。
自己監督的な方法で報酬を生成することは、エージェントに本質的な欲求を与え、環境を学び、探索することで、より一般的な行動を引き起こす可能性がある。
本研究では,不規則な特徴を再構築して学習する潜在状態変数に対するベイズ奇襲として計算される強化学習に対する内在的な報酬として,好奇心に基づくボーナスを提案する。
我々は,ゲームにおける環境探索,継続作業,ゲームスコアの把握という観点からエージェントのパフォーマンスを計測し,評価を行った。
我々のモデルは計算的に安価であり、いくつかの問題に対する最先端の性能を実証的に示す。
さらに, 確率的行動を伴う環境実験を行った結果, 単純な確率的行動に対して最も弾力性のあるアプローチが得られた。
さらなる可視化はプロジェクトのwebページで確認できる。
(https://lbsexploration.github.io/)
関連論文リスト
- Learning To Explore With Predictive World Model Via Self-Supervised Learning [0.0]
本稿では、長年無視されてきた認知的要素を用いて、本質的な動機づけを持つエージェントのための内的世界モデルを構築することを提案する。
我々は18のAtariゲームを用いて、反応的かつ熟考的な行動を必要とするゲームに認知スキルが現れるかを評価した。
以上の結果から, 厳密でスパースな報酬を有する多くのテストケースにおいて, 最先端技術と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2025-02-18T18:39:23Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Go Beyond Imagination: Maximizing Episodic Reachability with World
Models [68.91647544080097]
本稿では,GoBI-Go Beyond Imaginationという新たな固有報酬設計を提案する。
学習した世界モデルを用いて、ランダムな動作で予測された将来の状態を生成する。
本手法は,Minigridナビゲーションタスクの12の課題において,従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-25T20:30:20Z) - Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Automatic Reward Design via Learning Motivation-Consistent Intrinsic
Rewards [46.068337522093096]
報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。
提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-29T14:52:02Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。