論文の概要: Exploration in Deep Reinforcement Learning: A Survey
- arxiv url: http://arxiv.org/abs/2205.00824v1
- Date: Mon, 2 May 2022 12:03:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 16:10:15.306189
- Title: Exploration in Deep Reinforcement Learning: A Survey
- Title(参考訳): 深層強化学習における探索:調査
- Authors: Pawel Ladosz, Lilian Weng, Minwoo Kim, Hyondong Oh
- Abstract要約: スパース報酬問題の解決には探索技術が重要である。
スパース報酬問題では報酬は稀であり、エージェントがランダムに振る舞うことで報酬を見つけられないことを意味する。
本総説では,既存探査手法の概要について概説する。
- 参考スコア(独自算出の注目度): 4.066140143829243
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper reviews exploration techniques in deep reinforcement learning.
Exploration techniques are of primary importance when solving sparse reward
problems. In sparse reward problems, the reward is rare, which means that the
agent will not find the reward often by acting randomly. In such a scenario, it
is challenging for reinforcement learning to learn rewards and actions
association. Thus more sophisticated exploration methods need to be devised.
This review provides a comprehensive overview of existing exploration
approaches, which are categorized based on the key contributions as follows
reward novel states, reward diverse behaviours, goal-based methods,
probabilistic methods, imitation-based methods, safe exploration and
random-based methods. Then, the unsolved challenges are discussed to provide
valuable future research directions. Finally, the approaches of different
categories are compared in terms of complexity, computational effort and
overall performance.
- Abstract(参考訳): 本稿では,深層強化学習における探索手法についてレビューする。
スパース報酬問題の解決には探索技術が重要である。
わずかな報酬問題では、報酬は稀であり、エージェントがランダムに振る舞うことで報酬を見つけられないことを意味する。
このようなシナリオでは、強化学習が報酬や行動アソシエーションを学ぶことは困難である。
そのため、より高度な探査方法を考案する必要がある。
本総説では, 既往来の探索手法の概要を概観し, 報奨行動, 多様な行動, 目標に基づく手法, 確率的手法, 模倣的手法, 安全な探査方法, ランダムな手法の3つに分類する。
次に、未解決の課題を議論し、今後の研究の方向性を示す。
最後に、異なるカテゴリのアプローチは複雑さ、計算労力、全体的なパフォーマンスの観点から比較される。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - GAN-based Intrinsic Exploration For Sample Efficient Reinforcement
Learning [0.0]
本稿では,観測状態の分布を学習し,分布外である状態に対して高い確率で計算される固有報酬を送信する。
我々はスーパーマリオブラザーズでの報酬設定を無報酬で評価し、モンテズマの復讐設定を軽度に評価し、我々のアプローチが実際に効率的に探索可能であることを示す。
論文 参考訳(メタデータ) (2022-06-28T19:16:52Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - R\'enyi State Entropy for Exploration Acceleration in Reinforcement
Learning [6.72733760405596]
本研究では,R'enyiエントロピーに基づく新しい固有報酬モジュールを提案し,高品質な固有報酬を提供する。
特に、エントロピー推定のために$k$-nearest 隣人に$k$-value 探索法を導入し、推定精度を保証するために$k$-value 探索法を設計する。
論文 参考訳(メタデータ) (2022-03-08T07:38:35Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文 参考訳(メタデータ) (2020-12-15T21:26:54Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。