論文の概要: On the Importance of Exploration for Generalization in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2306.05483v1
- Date: Thu, 8 Jun 2023 18:07:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 15:55:40.161931
- Title: On the Importance of Exploration for Generalization in Reinforcement
Learning
- Title(参考訳): 強化学習における一般化のための探索の重要性について
- Authors: Yiding Jiang, J. Zico Kolter, Roberta Raileanu
- Abstract要約: 本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
- 参考スコア(独自算出の注目度): 89.63074327328765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing approaches for improving generalization in deep reinforcement
learning (RL) have mostly focused on representation learning, neglecting
RL-specific aspects such as exploration. We hypothesize that the agent's
exploration strategy plays a key role in its ability to generalize to new
environments. Through a series of experiments in a tabular contextual MDP, we
show that exploration is helpful not only for efficiently finding the optimal
policy for the training environments but also for acquiring knowledge that
helps decision making in unseen environments. Based on these observations, we
propose EDE: Exploration via Distributional Ensemble, a method that encourages
exploration of states with high epistemic uncertainty through an ensemble of
Q-value distributions. Our algorithm is the first value-based approach to
achieve state-of-the-art on both Procgen and Crafter, two benchmarks for
generalization in RL with high-dimensional observations. The open-sourced
implementation can be found at https://github.com/facebookresearch/ede .
- Abstract(参考訳): 深部強化学習(RL)における一般化を改善するための既存のアプローチは、探索のようなRL固有の側面を無視した表現学習に主に焦点をあてている。
我々は,エージェントの探索戦略が,新たな環境に一般化する上で重要な役割を担っていると仮定する。
表付き文脈型MDPにおける一連の実験を通して,学習環境の最適政策の探索だけでなく,未知の環境における意思決定を支援する知識の獲得にも有効であることを示す。
これらの観測に基づいて,Q値分布のアンサンブルを通したてんかん不確実性の高い状態の探索を支援する方法である分散アンサンブルによるEDEを提案する。
我々のアルゴリズムは,RLにおける高次元観測値の一般化のための2つのベンチマークであるProcgen と Crafter の両方で最先端を実現するための最初の価値ベースアプローチである。
オープンソース実装はhttps://github.com/facebookresearch/ede で見ることができる。
関連論文リスト
- Efficient Exploration in Deep Reinforcement Learning: A Novel Bayesian Actor-Critic Algorithm [0.195804735329484]
強化学習(RL)と深層強化学習(DRL)は破壊する可能性があり、我々が世界と対話する方法を既に変えている。
適用可能性の重要な指標の1つは、実世界のシナリオでスケールして機能する能力である。
論文 参考訳(メタデータ) (2024-08-19T14:50:48Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - DEIR: Efficient and Robust Exploration through
Discriminative-Model-Based Episodic Intrinsic Rewards [2.09711130126031]
探索は強化学習(RL)の基本的側面であり,その有効性はRLアルゴリズムの性能決定要因である。
近年の研究では、観察における新規性から推定される本質的な報酬による探索を奨励する効果が示されている。
条件付き相互情報項による本質的な報酬を理論的に導出する新手法であるDEIRを提案する。
論文 参考訳(メタデータ) (2023-04-21T06:39:38Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Exploration in Deep Reinforcement Learning: A Comprehensive Survey [24.252352133705735]
Deep Reinforcement Learning (DRL)とDeep Multi-agent Reinforcement Learning (MARL)は、ゲームAI、自動運転車、ロボティクス、ファイナンスなど、幅広い領域で大きな成功を収めている。
DRLおよび深層MARLエージェントはサンプリング非効率であることが広く知られており、比較的単純なゲーム設定でも数百万のインタラクションが必要である。
本稿では,DRLおよび深部MARLにおける既存探査手法に関する総合的な調査を行う。
論文 参考訳(メタデータ) (2021-09-14T13:16:33Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Intrinsic Exploration as Multi-Objective RL [29.124322674133]
内在的モチベーションは、報酬が非常に少ないときに強化学習(RL)エージェントを探索することを可能にする。
本稿では,多目的RLに基づくフレームワークを提案する。
この定式化は、探索と搾取のバランスを政策レベルでもたらし、従来の方法よりも有利になる。
論文 参考訳(メタデータ) (2020-04-06T02:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。