論文の概要: Random Latent Exploration for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2407.13755v1
- Date: Thu, 18 Jul 2024 17:55:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 14:12:02.276424
- Title: Random Latent Exploration for Deep Reinforcement Learning
- Title(参考訳): 深部強化学習のためのランダム潜時探索
- Authors: Srinath Mahankali, Zhang-Wei Hong, Ayush Sekhari, Alexander Rakhlin, Pulkit Agrawal,
- Abstract要約: 本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
- 参考スコア(独自算出の注目度): 71.88709402926415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to efficiently explore high-dimensional state spaces is essential for the practical success of deep Reinforcement Learning (RL). This paper introduces a new exploration technique called Random Latent Exploration (RLE), that combines the strengths of bonus-based and noise-based (two popular approaches for effective exploration in deep RL) exploration strategies. RLE leverages the idea of perturbing rewards by adding structured random rewards to the original task rewards in certain (random) states of the environment, to encourage the agent to explore the environment during training. RLE is straightforward to implement and performs well in practice. To demonstrate the practical effectiveness of RLE, we evaluate it on the challenging Atari and IsaacGym benchmarks and show that RLE exhibits higher overall scores across all the tasks than other approaches.
- Abstract(参考訳): 高次元状態空間を効率的に探索する能力は、深層強化学習(RL)の実践的な成功に不可欠である。
本稿では,RLE(Random Latent Exploration)と呼ばれる新しい探査手法を提案する。
RLEは、環境の特定の(ランダムな)状態において、元のタスク報酬に構造化されたランダムな報酬を加えることにより、エージェントがトレーニング中に環境を探索するように促すことによって、摂動報酬の考え方を活用する。
RLEは実装が簡単で、実際はうまく機能します。
RLEの実用性を示すため、AtariとIsaacGymのベンチマークを用いて評価を行い、RLEは他の手法よりも全タスクの総合的なスコアが高いことを示す。
関連論文リスト
- Curricular Subgoals for Inverse Reinforcement Learning [21.038691420095525]
逆強化学習(IRL)は、専門家による実証から報酬関数を再構築し、政策学習を促進することを目的としている。
既存のIRL法は主に、模倣者と専門家の軌跡の違いを最小限に抑えるために、グローバル報酬関数の学習に重点を置いている。
エージェントの模倣を導くために,一タスクを複数の局所的なサブゴールで明示的に切り離す,Curricular Subgoal-based Inverse Reinforcement Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T04:06:41Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - DEIR: Efficient and Robust Exploration through
Discriminative-Model-Based Episodic Intrinsic Rewards [2.09711130126031]
探索は強化学習(RL)の基本的側面であり,その有効性はRLアルゴリズムの性能決定要因である。
近年の研究では、観察における新規性から推定される本質的な報酬による探索を奨励する効果が示されている。
条件付き相互情報項による本質的な報酬を理論的に導出する新手法であるDEIRを提案する。
論文 参考訳(メタデータ) (2023-04-21T06:39:38Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Hindsight Task Relabelling: Experience Replay for Sparse Reward Meta-RL [91.26538493552817]
本稿では,メタRLの学習経験をリラベルするメタRLのための後向きレバーベリングの定式化について述べる。
提案手法の有効性を,難易度の高い目標達成環境のスイートで実証する。
論文 参考訳(メタデータ) (2021-12-02T00:51:17Z) - Focus on Impact: Indoor Exploration with Intrinsic Motivation [45.97756658635314]
そこで本研究では,純粋に本質的な報酬信号を用いたモデルによる探索指導を提案する。
ニューラルベース密度モデルを含み、従来のカウントベースの正規化を、以前に訪れた状態の擬似数で置き換える。
また,提案手法を取り入れたロボットが,ポイントゴールナビゲーションや実世界展開にシームレスに適応することを示す。
論文 参考訳(メタデータ) (2021-09-14T18:00:07Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文 参考訳(メタデータ) (2020-12-15T21:26:54Z) - Reinforcement Learning with Probabilistically Complete Exploration [27.785017885906313]
素早いランダム探索型強化学習(R3L)を提案する。
探索問題を探索問題として定式化し、初期解を見つけるために広く利用されている計画アルゴリズムを活用する。
本手法を実験的に実証し,少数の探査サンプルを必要とせず,性能が向上した。
論文 参考訳(メタデータ) (2020-01-20T02:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。