論文の概要: Exploration by self-supervised exploitation
- arxiv url: http://arxiv.org/abs/2302.11563v2
- Date: Mon, 3 Jul 2023 07:52:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 14:31:58.652179
- Title: Exploration by self-supervised exploitation
- Title(参考訳): 自己監視による探査
- Authors: Matej Pech\'a\v{c}, Michal Chovanec, Igor Farka\v{s}
- Abstract要約: 強化学習は、意思決定の問題を解決することができ、事前に設計された報酬関数に従って、エージェントに環境の中で振る舞うように訓練する。
このような問題の解決策は、エージェントに本質的なモチベーションを持たせることで、情報的な探索をもたらすかもしれない。
本稿では, 蒸留誤差に基づく内部モチベーションアルゴリズムのクラスである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning can solve decision-making problems and train an agent
to behave in an environment according to a predesigned reward function.
However, such an approach becomes very problematic if the reward is too sparse
and the agent does not come across the reward during the environmental
exploration. The solution to such a problem may be in equipping the agent with
an intrinsic motivation, which will provide informed exploration, during which
the agent is likely to also encounter external reward. Novelty detection is one
of the promising branches of intrinsic motivation research. We present
Self-supervised Network Distillation (SND), a class of internal motivation
algorithms based on the distillation error as a novelty indicator, where the
target model is trained using self-supervised learning. We adapted three
existing self-supervised methods for this purpose and experimentally tested
them on a set of ten environments that are considered difficult to explore. The
results show that our approach achieves faster growth and higher external
reward for the same training time compared to the baseline models, which
implies improved exploration in a very sparse reward environment.
- Abstract(参考訳): 強化学習は意思決定問題を解決し、予め設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
しかし, 環境調査において報酬が小さすぎて, エージェントが報酬に遭遇しない場合, このようなアプローチは非常に問題となる。
このような問題の解決策は、エージェントに本質的なモチベーションを持たせることで、エージェントが外部の報酬に遭遇する可能性がある情報探索を提供するかもしれない。
ノベルティ検出は本質的動機づけ研究の有望な分野の1つである。
本稿では, 蒸留誤差に基づく内部モチベーションアルゴリズムのクラスである自己教師ネットワーク蒸留(SND)について, 対象モデルを自己教師学習を用いて訓練するノベルティ指標として提示する。
この目的のために既存の3つの自己監督手法を適用し, 探索が困難と考えられる10の環境上で実験を行った。
その結果,我々のアプローチは,ベースラインモデルと比較して,同じトレーニング時間に対して,より速い成長と高い外部報酬を達成できることがわかった。
関連論文リスト
- Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。
我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文 参考訳(メタデータ) (2023-01-26T01:06:46Z) - Intrinsic Motivation in Model-based Reinforcement Learning: A Brief
Review [77.34726150561087]
本稿では,エージェントが獲得した世界モデルに基づいて,本質的な動機付けを決定するための既存の手法について考察する。
提案した統合フレームワークは,学習を改善するために,世界モデルと本質的なモチベーションを用いてエージェントのアーキテクチャを記述する。
論文 参考訳(メタデータ) (2023-01-24T15:13:02Z) - Curiosity-Driven Multi-Agent Exploration with Mixed Objectives [7.247148291603988]
単エージェント強化学習におけるスパース報酬問題を軽減するために、本質的な報酬がますます利用されてきた。
好奇心駆動探索(英: Curiosity-driven exploration)は、エージェントの好奇心モジュールの予測誤差としてこの新規性を定量化する、単純で効率的なアプローチである。
しかし, この好奇心を駆使して, スパース報酬協調型マルチエージェント環境における探索をガイドする手法は, 常に改善に繋がらないことを示す。
論文 参考訳(メタデータ) (2022-10-29T02:45:38Z) - GAN-based Intrinsic Exploration For Sample Efficient Reinforcement
Learning [0.0]
本稿では,観測状態の分布を学習し,分布外である状態に対して高い確率で計算される固有報酬を送信する。
我々はスーパーマリオブラザーズでの報酬設定を無報酬で評価し、モンテズマの復讐設定を軽度に評価し、我々のアプローチが実際に効率的に探索可能であることを示す。
論文 参考訳(メタデータ) (2022-06-28T19:16:52Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Focus on Impact: Indoor Exploration with Intrinsic Motivation [45.97756658635314]
そこで本研究では,純粋に本質的な報酬信号を用いたモデルによる探索指導を提案する。
ニューラルベース密度モデルを含み、従来のカウントベースの正規化を、以前に訪れた状態の擬似数で置き換える。
また,提案手法を取り入れたロボットが,ポイントゴールナビゲーションや実世界展開にシームレスに適応することを示す。
論文 参考訳(メタデータ) (2021-09-14T18:00:07Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Self-Supervised Exploration via Latent Bayesian Surprise [4.088019409160893]
本研究では,強化学習に固有の報酬として,好奇心に基づくボーナスを提案する。
環境調査の観点から、エージェントの性能を計測し、モデルを幅広く評価します。
我々のモデルは安価で経験的にいくつかの問題に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2021-04-15T14:40:16Z) - Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。