論文の概要: Exploration in Deep Reinforcement Learning: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2109.06668v2
- Date: Wed, 15 Sep 2021 17:25:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 10:38:05.117211
- Title: Exploration in Deep Reinforcement Learning: A Comprehensive Survey
- Title(参考訳): 深層強化学習における探索:包括的調査
- Authors: Tianpei Yang, Hongyao Tang, Chenjia Bai, Jinyi Liu, Jianye Hao,
Zhaopeng Meng and Peng Liu
- Abstract要約: Deep Reinforcement Learning (DRL)とDeep Multi-agent Reinforcement Learning (MARL)は、ゲームAI、自動運転車、ロボティクス、ファイナンスなど、幅広い領域で大きな成功を収めている。
DRLおよび深層MARLエージェントはサンプリング非効率であることが広く知られており、比較的単純なゲーム設定でも数百万のインタラクションが必要である。
本稿では,DRLおよび深部MARLにおける既存探査手法に関する総合的な調査を行う。
- 参考スコア(独自算出の注目度): 24.252352133705735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (DRL) and Deep Multi-agent Reinforcement Learning
(MARL) have achieved significant success across a wide range of domains, such
as game AI, autonomous vehicles, robotics and finance. However, DRL and deep
MARL agents are widely known to be sample-inefficient and millions of
interactions are usually needed even for relatively simple game settings, thus
preventing the wide application in real-industry scenarios. One bottleneck
challenge behind is the well-known exploration problem, i.e., how to
efficiently explore the unknown environments and collect informative
experiences that could benefit the policy learning most.
In this paper, we conduct a comprehensive survey on existing exploration
methods in DRL and deep MARL for the purpose of providing understandings and
insights on the critical problems and solutions. We first identify several key
challenges to achieve efficient exploration, which most of the exploration
methods aim at addressing. Then we provide a systematic survey of existing
approaches by classifying them into two major categories: uncertainty-oriented
exploration and intrinsic motivation-oriented exploration. The essence of
uncertainty-oriented exploration is to leverage the quantification of the
epistemic and aleatoric uncertainty to derive efficient exploration. By
contrast, intrinsic motivation-oriented exploration methods usually incorporate
different reward agnostic information for intrinsic exploration guidance.
Beyond the above two main branches, we also conclude other exploration methods
which adopt sophisticated techniques but are difficult to be classified into
the above two categories. In addition, we provide a comprehensive empirical
comparison of exploration methods for DRL on a set of commonly used benchmarks.
Finally, we summarize the open problems of exploration in DRL and deep MARL and
point out a few future directions.
- Abstract(参考訳): Deep Reinforcement Learning (DRL)とDeep Multi-agent Reinforcement Learning (MARL)は、ゲームAI、自動運転車、ロボティクス、ファイナンスなど、幅広い領域で大きな成功を収めている。
しかし、DRLと深層MARLエージェントはサンプリング非効率であることが広く知られており、比較的単純なゲーム設定でも数百万のインタラクションが必要であるため、実際の産業シナリオにおける広範な適用を妨げている。
背景にあるボトルネックの1つは、よく知られた探索問題、すなわち、未知の環境を効率的に探索し、政策学習に最も役立つ情報的経験を集める方法である。
本稿では,drl と deep marl における既存の探索手法に関する総合的な調査を行い,重要な問題と解決策に関する理解と洞察を提供する。
まず、効率的な探査を実現するためのいくつかの重要な課題を特定します。
次に,既存のアプローチを不確実性指向探索と本質的モチベーション指向探索の2つのカテゴリに分類し,体系的な調査を行う。
不確実性指向探索の本質は、認識論的不確実性の定量化を利用して効率的な探索を導出することである。
対照的に、本質的な動機づけ指向の探索方法は、通常、内在的な探索指導に異なる報酬非依存の情報を取り入れている。
以上の2つの主な分野の他,高度な技術を採用するが,これら2つのカテゴリに分類することは困難である他の探索手法も結論づける。
さらに、よく使われるベンチマークのセット上でDRLの探索手法を総合的に比較する。
最後に,DRLと深部MARLにおける探索のオープンな問題を要約し,今後の方向性を指摘する。
関連論文リスト
- Choices are More Important than Efforts: LLM Enables Efficient Multi-Agent Exploration [46.938186139700804]
本稿では,多言語探索を効率的に行うために,LLM (Large Language Model) から情報伝達タスク関連ガイダンスを選択する LEMAE を提案する。
具体的には,LLMからの言語知識を,低推論コストで識別的に,タスク遂行に不可欠な記号的キー状態に分類する。
LEMAEは冗長な探索を減らし、既存のSOTAアプローチよりも大きなマージン(例えば SMAC や MPE)で性能を向上し、特定のシナリオにおいて10倍の加速を達成する。
論文 参考訳(メタデータ) (2024-10-03T14:21:23Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - WESE: Weak Exploration to Strong Exploitation for LLM Agents [95.6720931773781]
本稿では,オープンワールド対話型タスクの解法において,LLMエージェントの強化を目的としたWeak Exploration to Strong Exploitation (WESE)を提案する。
WESEは、探究と搾取のプロセスを分離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。
次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。
論文 参考訳(メタデータ) (2024-04-11T03:31:54Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Strangeness-driven Exploration in Multi-Agent Reinforcement Learning [0.0]
我々は,任意の集中型トレーニングと分散実行(CTDE)に基づくMARLアルゴリズムに容易に組み込むことのできる,奇異性のある新たな探索手法を提案する。
探索ボーナスは奇異性から得られ,提案手法はMARLタスクでよく見られる遷移の影響を受けない。
論文 参考訳(メタデータ) (2022-12-27T11:08:49Z) - Deep Intrinsically Motivated Exploration in Continuous Control [0.0]
連続的なシステムでは、ネットワークのパラメータや選択されたアクションがランダムノイズによって乱されるような、間接的でない戦略によって探索が行われることが多い。
我々は、動物モチベーションシステムに関する既存の理論を強化学習パラダイムに適応させ、新しい探究戦略を導入する。
我々のフレームワークは、より大きく多様な状態空間に拡張し、ベースラインを劇的に改善し、間接的でない戦略を大幅に上回る。
論文 参考訳(メタデータ) (2022-10-01T14:52:16Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Intrinsic Exploration as Multi-Objective RL [29.124322674133]
内在的モチベーションは、報酬が非常に少ないときに強化学習(RL)エージェントを探索することを可能にする。
本稿では,多目的RLに基づくフレームワークを提案する。
この定式化は、探索と搾取のバランスを政策レベルでもたらし、従来の方法よりも有利になる。
論文 参考訳(メタデータ) (2020-04-06T02:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。