論文の概要: State Entropy Maximization with Random Encoders for Efficient
Exploration
- arxiv url: http://arxiv.org/abs/2102.09430v1
- Date: Thu, 18 Feb 2021 15:45:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-19 14:16:25.205290
- Title: State Entropy Maximization with Random Encoders for Efficient
Exploration
- Title(参考訳): ランダムエンコーダによる状態エントロピー最大化による効率的な探索
- Authors: Younggyo Seo, Lili Chen, Jinwoo Shin, Honglak Lee, Pieter Abbeel,
Kimin Lee
- Abstract要約: 近年,深層補強学習(rl)におけるサンプル効率向上のための手法が提案されている。
本稿では,状態エントロピーを本質的な報酬として利用する探索手法であるRandoms for Efficient Exploration (RE3)を提案する。
特に、ランダムエンコーダを用いて、状態エントロピーを安定かつ計算効率の良い方法で推定できることが判明した。
- 参考スコア(独自算出の注目度): 162.39202927681484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent exploration methods have proven to be a recipe for improving
sample-efficiency in deep reinforcement learning (RL). However, efficient
exploration in high-dimensional observation spaces still remains a challenge.
This paper presents Random Encoders for Efficient Exploration (RE3), an
exploration method that utilizes state entropy as an intrinsic reward. In order
to estimate state entropy in environments with high-dimensional observations,
we utilize a k-nearest neighbor entropy estimator in the low-dimensional
representation space of a convolutional encoder. In particular, we find that
the state entropy can be estimated in a stable and compute-efficient manner by
utilizing a randomly initialized encoder, which is fixed throughout training.
Our experiments show that RE3 significantly improves the sample-efficiency of
both model-free and model-based RL methods on locomotion and navigation tasks
from DeepMind Control Suite and MiniGrid benchmarks. We also show that RE3
allows learning diverse behaviors without extrinsic rewards, effectively
improving sample-efficiency in downstream tasks. Source code and videos are
available at https://sites.google.com/view/re3-rl.
- Abstract(参考訳): 近年,深層強化学習(rl)におけるサンプル効率向上のための手法が提案されている。
しかし、高次元観測空間での効率的な探索は依然として課題である。
本稿では,本質的な報酬として状態エントロピーを利用する探索手法であるRandom Encoders for Efficient Exploration (RE3)を提案する。
高次元観測環境における状態エントロピーを推定するために、畳み込みエンコーダの低次元表現空間におけるk-アネレス近傍エントロピー推定器を用いる。
特に, 学習中に固定されたランダム初期化エンコーダを利用することにより, 状態エントロピーを安定かつ計算効率良く推定できることがわかった。
実験の結果,RE3 は,DeepMind Control Suite と MiniGrid ベンチマークによるロコモーションおよびナビゲーションタスクにおけるモデルフリーおよびモデルベース RL 手法のサンプル効率を著しく向上することがわかった。
また,re3は,外部報酬を伴わずに多様な動作を学習でき,下流タスクのサンプル効率を効果的に向上できることを示した。
ソースコードとビデオはhttps://sites.google.com/view/re3-rl.comで入手できる。
関連論文リスト
- Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Combating Mode Collapse in GANs via Manifold Entropy Estimation [70.06639443446545]
Generative Adversarial Networks (GAN) は、様々なタスクやアプリケーションにおいて魅力的な結果を示している。
GANのモード崩壊問題に対処するための新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-08-25T12:33:31Z) - k-Means Maximum Entropy Exploration [55.81894038654918]
余分な報酬を伴う連続空間での探索は、強化学習におけるオープンな問題である。
本研究では, 状態訪問分布のエントロピーに対する近似値の低界化に基づく人工好奇性アルゴリズムを提案する。
提案手法は,高次元連続空間における探索のためのベンチマークにおいて,計算効率と競合性の両方を示す。
論文 参考訳(メタデータ) (2022-05-31T09:05:58Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Fixed $\beta$-VAE Encoding for Curious Exploration in Complex 3D
Environments [1.0152838128195467]
固定された$beta$-VAEエンコーディングが好奇心で効果的に利用できることを示す。
これとカリキュラム学習を組み合わせて、未解決の探索集約的なタスクを解決します。
また、Atari Breakoutの結果を、ランダムな機能や逆動的機能よりも優れたカスタムエンコーディングと関連付けています。
論文 参考訳(メタデータ) (2021-05-18T14:52:36Z) - Efficient Exploration of Reward Functions in Inverse Reinforcement
Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。
本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T10:17:45Z) - Langevin Dynamics for Adaptive Inverse Reinforcement Learning of
Stochastic Gradient Algorithms [21.796874356469644]
逆強化学習(IRL)は, エージェントの応答を観察することで, エージェントの報酬関数を推定することを目的としている。
我々は、報酬関数 $R(theta)$ を推定するために一般化されたランゲヴィン力学を示す。
提案したIRLアルゴリズムは、カーネルベースの受動的学習スキームを用いて、$exp(R(theta)$に比例した分布からサンプルを生成する。
論文 参考訳(メタデータ) (2020-06-20T23:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。