論文の概要: Variational Dynamic for Self-Supervised Exploration in Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2010.08755v2
- Date: Wed, 17 Nov 2021 19:50:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 11:48:52.032437
- Title: Variational Dynamic for Self-Supervised Exploration in Deep
Reinforcement Learning
- Title(参考訳): 深部強化学習における自己監督探索のための変分力学
- Authors: Chenjia Bai, Peng Liu, Kaiyu Liu, Lingxiao Wang, Yingnan Zhao, Lei
Han, Zhaoran Wang
- Abstract要約: 本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
- 参考スコア(独自算出の注目度): 64.87110914918101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient exploration remains a challenging problem in reinforcement
learning, especially for tasks where extrinsic rewards from environments are
sparse or even totally disregarded. Significant advances based on intrinsic
motivation show promising results in simple environments but often get stuck in
environments with multimodal and stochastic dynamics. In this work, we propose
a variational dynamic model based on the conditional variational inference to
model the multimodality and stochasticity. We consider the environmental
state-action transition as a conditional generative process by generating the
next-state prediction under the condition of the current state, action, and
latent variable, which provides a better understanding of the dynamics and
leads a better performance in exploration. We derive an upper bound of the
negative log-likelihood of the environmental transition and use such an upper
bound as the intrinsic reward for exploration, which allows the agent to learn
skills by self-supervised exploration without observing extrinsic rewards. We
evaluate the proposed method on several image-based simulation tasks and a real
robotic manipulating task. Our method outperforms several state-of-the-art
environment model-based exploration approaches.
- Abstract(参考訳): 特に環境からの過度な報酬が不足したり、あるいは完全に無視されたりするタスクでは、効率的な探索は強化学習において依然として難しい問題である。
内在的モチベーションに基づく重要な進歩は、単純な環境では有望な結果を示すが、しばしばマルチモーダルおよび確率力学を持つ環境で立ち往生する。
本研究では,条件付き変分推論に基づく変分動的モデルを提案し,多様性と確率性をモデル化する。
本研究では,現状,行動,潜在変数の条件下での次の状態予測を発生させることにより,環境状態-行動遷移を条件生成プロセスとして考える。
我々は,環境変化の負のログ様相の上限を導出し,その上限を探索に内在する報酬として用いることにより,エージェントが過剰な報酬を観察することなく自己監督探索によってスキルを身につけることができる。
提案手法は,複数の画像ベースシミュレーションタスクと実際のロボット操作タスクで評価する。
本手法は,最先端環境モデルに基づく探索手法よりも優れている。
関連論文リスト
- Continuously evolving rewards in an open-ended environment [0.0]
RULE: 学習と期待によるリワード更新は、単純化されたエコシステムのような環境でテストされます。
団体の人口は、当初は報われたが最終的に有害な行動の放棄をうまく証明した。
これらの調整は、継続的な学習において、外部の介入なしに、実体の根底にある報酬関数を内在的な修正によって行われる。
論文 参考訳(メタデータ) (2024-05-02T13:07:56Z) - Learning minimal representations of stochastic processes with
variational autoencoders [52.99137594502433]
プロセスを記述するのに必要なパラメータの最小セットを決定するために、教師なしの機械学習アプローチを導入する。
我々の手法はプロセスを記述する未知のパラメータの自律的な発見を可能にする。
論文 参考訳(メタデータ) (2023-07-21T14:25:06Z) - Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - Focus on Impact: Indoor Exploration with Intrinsic Motivation [45.97756658635314]
そこで本研究では,純粋に本質的な報酬信号を用いたモデルによる探索指導を提案する。
ニューラルベース密度モデルを含み、従来のカウントベースの正規化を、以前に訪れた状態の擬似数で置き換える。
また,提案手法を取り入れたロボットが,ポイントゴールナビゲーションや実世界展開にシームレスに適応することを示す。
論文 参考訳(メタデータ) (2021-09-14T18:00:07Z) - A New Representation of Successor Features for Transfer across
Dissimilar Environments [60.813074750879615]
多くの実世界のRL問題は、異なるダイナミクスを持つ環境間での移動を必要とする。
ガウス過程を用いて後継特徴関数をモデル化する手法を提案する。
我々の理論的解析は、この手法の収束と、後続特徴関数のモデル化における有界誤差を証明している。
論文 参考訳(メタデータ) (2021-07-18T12:37:05Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。