論文の概要: Perturbation-based exploration methods in deep reinforcement learning
- arxiv url: http://arxiv.org/abs/2011.05446v1
- Date: Tue, 10 Nov 2020 22:57:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 06:48:06.105540
- Title: Perturbation-based exploration methods in deep reinforcement learning
- Title(参考訳): 深部強化学習における摂動に基づく探索法
- Authors: Sneha Aenugu
- Abstract要約: 政策・報酬空間における摂動がエージェントの探索行動に及ぼす影響について検討する。
ソフトマックス層の直前にポリシーを摂動させ,ドメインに散発的な報酬ボーナスを導入することで,探索を大幅に促進できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research on structured exploration placed emphasis on identifying
novel states in the state space and incentivizing the agent to revisit them
through intrinsic reward bonuses. In this study, we question whether the
performance boost demonstrated through these methods is indeed due to the
discovery of structure in exploratory schedule of the agent or is the benefit
largely attributed to the perturbations in the policy and reward space
manifested in pursuit of structured exploration. In this study we investigate
the effect of perturbations in policy and reward spaces on the exploratory
behavior of the agent. We proceed to show that simple acts of perturbing the
policy just before the softmax layer and introduction of sporadic reward
bonuses into the domain can greatly enhance exploration in several domains of
the arcade learning environment. In light of these findings, we recommend
benchmarking any enhancements to structured exploration research against the
backdrop of noisy exploration.
- Abstract(参考訳): 構造化探査の最近の研究は、国家空間における新しい状態の特定と、本質的な報酬ボーナスを通じてそれらを再考するエージェントのインセンティブに重点を置いている。
本研究では,これらの手法によって実証された性能向上は,エージェントの探索スケジュールにおける構造発見によるものであるのか,あるいは,構造探索を追求する上で現れる政策や報酬空間の摂動に起因するメリットなのかを疑問視する。
本研究では,政策と報酬空間における摂動がエージェントの探索行動に及ぼす影響について検討する。
我々は,ソフトマックス層の直前にポリシーを乱す単純な行為と,散発的な報酬ボーナスをドメインに導入することで,アーケード学習環境のいくつかの領域における探索を大幅に促進できることを示す。
これらの知見を踏まえ, 騒音探査の背景から, 構造探査研究への拡張のベンチマークを推奨する。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Information Content Exploration [1.7034813545878589]
本稿では,探索行動の体系的定量化と状態カバレッジの促進を図った本質的な報奨を提案する。
情報理論的報酬は,様々なゲームにおいて,効率的な探索や性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2023-10-10T16:51:32Z) - Never Explore Repeatedly in Multi-Agent Reinforcement Learning [40.35950679063337]
我々は「リビジョン」と戦うための動的報酬スケーリング手法を提案する。
Google Research FootballやStarCraft IIのマイクロマネジメントタスクのような需要のある環境におけるパフォーマンスの向上を示す。
論文 参考訳(メタデータ) (2023-08-19T05:27:48Z) - Successor-Predecessor Intrinsic Exploration [18.440869985362998]
本研究は,内因性報酬を用いた探索に焦点を当て,エージェントが自己生成型内因性報酬を用いて外因性報酬を過渡的に増強する。
本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。
本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-24T16:02:51Z) - DEIR: Efficient and Robust Exploration through
Discriminative-Model-Based Episodic Intrinsic Rewards [2.09711130126031]
探索は強化学習(RL)の基本的側面であり,その有効性はRLアルゴリズムの性能決定要因である。
近年の研究では、観察における新規性から推定される本質的な報酬による探索を奨励する効果が示されている。
条件付き相互情報項による本質的な報酬を理論的に導出する新手法であるDEIRを提案する。
論文 参考訳(メタデータ) (2023-04-21T06:39:38Z) - Deep Intrinsically Motivated Exploration in Continuous Control [0.0]
連続的なシステムでは、ネットワークのパラメータや選択されたアクションがランダムノイズによって乱されるような、間接的でない戦略によって探索が行われることが多い。
我々は、動物モチベーションシステムに関する既存の理論を強化学習パラダイムに適応させ、新しい探究戦略を導入する。
我々のフレームワークは、より大きく多様な状態空間に拡張し、ベースラインを劇的に改善し、間接的でない戦略を大幅に上回る。
論文 参考訳(メタデータ) (2022-10-01T14:52:16Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Guarantees for Epsilon-Greedy Reinforcement Learning with Function
Approximation [69.1524391595912]
エプシロングレーディ、ソフトマックス、ガウシアンノイズといった神秘的な探索政策は、いくつかの強化学習タスクにおいて効率的に探索することができない。
本稿では,このような政策を理論的に分析し,筋電図探索による強化学習のための最初の後悔とサンプル複雑度境界を提供する。
論文 参考訳(メタデータ) (2022-06-19T14:44:40Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Fast active learning for pure exploration in reinforcement learning [48.98199700043158]
1/n$でスケールしたボーナスはより高速な学習率をもたらし、地平線への依存に関して既知の上限を改善します。
また, 停止時間の解析を改良することにより, 最良政体識別設定におけるサンプルの複雑さを$H$で改善できることも示している。
論文 参考訳(メタデータ) (2020-07-27T11:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。