論文の概要: R\'enyi State Entropy for Exploration Acceleration in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2203.04297v1
- Date: Tue, 8 Mar 2022 07:38:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 14:20:40.453639
- Title: R\'enyi State Entropy for Exploration Acceleration in Reinforcement
Learning
- Title(参考訳): 強化学習における探索加速のためのR'enyi状態エントロピー
- Authors: Mingqi Yuan, Man-on Pun, Dong Wang
- Abstract要約: 本研究では,R'enyiエントロピーに基づく新しい固有報酬モジュールを提案し,高品質な固有報酬を提供する。
特に、エントロピー推定のために$k$-nearest 隣人に$k$-value 探索法を導入し、推定精度を保証するために$k$-value 探索法を設計する。
- 参考スコア(独自算出の注目度): 6.72733760405596
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: One of the most critical challenges in deep reinforcement learning is to
maintain the long-term exploration capability of the agent. To tackle this
problem, it has been recently proposed to provide intrinsic rewards for the
agent to encourage exploration. However, most existing intrinsic reward-based
methods proposed in the literature fail to provide sustainable exploration
incentives, a problem known as vanishing rewards. In addition, these
conventional methods incur complex models and additional memory in their
learning procedures, resulting in high computational complexity and low
robustness. In this work, a novel intrinsic reward module based on the R\'enyi
entropy is proposed to provide high-quality intrinsic rewards. It is shown that
the proposed method actually generalizes the existing state entropy
maximization methods. In particular, a $k$-nearest neighbor estimator is
introduced for entropy estimation while a $k$-value search method is designed
to guarantee the estimation accuracy. Extensive simulation results demonstrate
that the proposed R\'enyi entropy-based method can achieve higher performance
as compared to existing schemes.
- Abstract(参考訳): 深層強化学習における最も重要な課題の1つは、エージェントの長期探査能力を維持することである。
この問題に対処するため, エージェントに本質的な報酬を提供することが近年提案されている。
しかし、文献で提案されている本質的な報酬に基づく方法のほとんどは、持続可能な調査インセンティブを提供していない。
さらに、これらの従来の手法は、複雑なモデルと学習手順への追加メモリを伴い、高い計算複雑性と低ロバスト性をもたらす。
本研究では,R'enyiエントロピーに基づく新しい固有報酬モジュールを提案し,高品質な固有報酬を提供する。
本手法は既存の状態エントロピー最大化法を実際に一般化することを示す。
特に、エントロピー推定のために$k$-nearest近傍推定器が導入され、その推定精度を保証するために$k$-value探索法が設計されている。
広範なシミュレーション結果から,提案手法は従来の手法に比べて高い性能が得られることがわかった。
関連論文リスト
- Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - k-Means Maximum Entropy Exploration [55.81894038654918]
余分な報酬を伴う連続空間での探索は、強化学習におけるオープンな問題である。
本研究では, 状態訪問分布のエントロピーに対する近似値の低界化に基づく人工好奇性アルゴリズムを提案する。
提案手法は,高次元連続空間における探索のためのベンチマークにおいて,計算効率と競合性の両方を示す。
論文 参考訳(メタデータ) (2022-05-31T09:05:58Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Exploration in Deep Reinforcement Learning: A Survey [4.066140143829243]
スパース報酬問題の解決には探索技術が重要である。
スパース報酬問題では報酬は稀であり、エージェントがランダムに振る舞うことで報酬を見つけられないことを意味する。
本総説では,既存探査手法の概要について概説する。
論文 参考訳(メタデータ) (2022-05-02T12:03:44Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Multimodal Reward Shaping for Efficient Exploration in Reinforcement
Learning [8.810296389358134]
IRSモジュールは、学習手順を記録し解析するために、アテンダントモデルや追加メモリに依存している。
エントロピー正則化器を置き換えるために,ジャイナの公正度指数 (JFI) という新しい指標を導入する。
論文 参考訳(メタデータ) (2021-07-19T14:04:32Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。