論文の概要: Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.08842v1
- Date: Mon, 19 Sep 2022 08:42:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 16:22:48.482161
- Title: Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning
- Title(参考訳): 強化学習における探索における視差の報酬
- Authors: Mingqi Yuan, Bo Li, Xin Jin, Wenjun Zeng
- Abstract要約: 本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
- 参考スコア(独自算出の注目度): 64.8463574294237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploration is critical for deep reinforcement learning in complex
environments with high-dimensional observations and sparse rewards. To address
this problem, recent approaches proposed to leverage intrinsic rewards to
improve exploration, such as novelty-based exploration and prediction-based
exploration. However, many intrinsic reward modules require sophisticated
structures and representation learning, resulting in prohibitive computational
complexity and unstable performance. In this paper, we propose Rewarding
Episodic Visitation Discrepancy (REVD), a computation-efficient and quantified
exploration method. More specifically, REVD provides intrinsic rewards by
evaluating the R\'enyi divergence-based visitation discrepancy between
episodes. To make efficient divergence estimation, a k-nearest neighbor
estimator is utilized with a randomly-initialized state encoder. Finally, the
REVD is tested on PyBullet Robotics Environments and Atari games. Extensive
experiments demonstrate that REVD can significantly improves the sample
efficiency of reinforcement learning algorithms and outperforms the
benchmarking methods.
- Abstract(参考訳): 複雑な環境下での深層強化学習には,高次元観測とスパース報酬を伴う探索が不可欠である。
この問題に対処するために、近年のアプローチでは、新奇な探索や予測に基づく探索など、探索を改善するために内在的な報酬を活用することが提案されている。
しかし、多くの内在的な報酬モジュールは高度な構造と表現学習を必要とし、結果として計算の複雑さと不安定な性能をもたらす。
本稿では,計算効率・定量化手法であるRewarding Episodic Visitation Discrepancy (REVD)を提案する。
より具体的には、REVDはR'enyiの発散に基づくエピソード間の訪問不一致を評価することによって本質的な報酬を提供する。
効率的な分散推定のために、k-アネレスト近傍推定器をランダムに初期化状態エンコーダで利用する。
最後に、REVDはPyBullet Robotics EnvironmentsとAtariゲームでテストされている。
大規模な実験により、REVDは強化学習アルゴリズムのサンプル効率を大幅に改善し、ベンチマーク手法より優れていることが示された。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - DEIR: Efficient and Robust Exploration through
Discriminative-Model-Based Episodic Intrinsic Rewards [2.09711130126031]
探索は強化学習(RL)の基本的側面であり,その有効性はRLアルゴリズムの性能決定要因である。
近年の研究では、観察における新規性から推定される本質的な報酬による探索を奨励する効果が示されている。
条件付き相互情報項による本質的な報酬を理論的に導出する新手法であるDEIRを提案する。
論文 参考訳(メタデータ) (2023-04-21T06:39:38Z) - SVDE: Scalable Value-Decomposition Exploration for Cooperative
Multi-Agent Reinforcement Learning [22.389803019100423]
本稿では、スケーラブルなトレーニング機構、本質的な報酬設計、爆発的体験再生を含む、スケーラブルな価値分解探索(SVDE)手法を提案する。
提案手法は,StarCraft IIマイクロマネジメントゲームにおいて,他の一般的なアルゴリズムと比較して,ほぼすべてのマップ上で最高の性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T03:17:20Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z) - k-Means Maximum Entropy Exploration [55.81894038654918]
余分な報酬を伴う連続空間での探索は、強化学習におけるオープンな問題である。
本研究では, 状態訪問分布のエントロピーに対する近似値の低界化に基づく人工好奇性アルゴリズムを提案する。
提案手法は,高次元連続空間における探索のためのベンチマークにおいて,計算効率と競合性の両方を示す。
論文 参考訳(メタデータ) (2022-05-31T09:05:58Z) - R\'enyi State Entropy for Exploration Acceleration in Reinforcement
Learning [6.72733760405596]
本研究では,R'enyiエントロピーに基づく新しい固有報酬モジュールを提案し,高品質な固有報酬を提供する。
特に、エントロピー推定のために$k$-nearest 隣人に$k$-value 探索法を導入し、推定精度を保証するために$k$-value 探索法を設計する。
論文 参考訳(メタデータ) (2022-03-08T07:38:35Z) - Multimodal Reward Shaping for Efficient Exploration in Reinforcement
Learning [8.810296389358134]
IRSモジュールは、学習手順を記録し解析するために、アテンダントモデルや追加メモリに依存している。
エントロピー正則化器を置き換えるために,ジャイナの公正度指数 (JFI) という新しい指標を導入する。
論文 参考訳(メタデータ) (2021-07-19T14:04:32Z) - Learning from an Exploring Demonstrator: Optimal Reward Estimation for
Bandits [36.37578212532926]
マルチアームバンディットインスタンスの報酬を推定する"逆バンディット"問題を導入する。
逆強化学習の関連問題に対する既存のアプローチは、最適なポリシーの実行を前提としている。
提案手法は,高信頼度アルゴリズムのクラス内でのデモンストレーションのための簡易かつ効率的な報酬推定手法を開発する。
論文 参考訳(メタデータ) (2021-06-28T17:37:49Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - State Entropy Maximization with Random Encoders for Efficient
Exploration [162.39202927681484]
近年,深層補強学習(rl)におけるサンプル効率向上のための手法が提案されている。
本稿では,状態エントロピーを本質的な報酬として利用する探索手法であるRandoms for Efficient Exploration (RE3)を提案する。
特に、ランダムエンコーダを用いて、状態エントロピーを安定かつ計算効率の良い方法で推定できることが判明した。
論文 参考訳(メタデータ) (2021-02-18T15:45:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。