論文の概要: An Evaluation Study of Intrinsic Motivation Techniques applied to
Reinforcement Learning over Hard Exploration Environments
- arxiv url: http://arxiv.org/abs/2205.11184v1
- Date: Mon, 23 May 2022 10:36:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 16:05:29.171822
- Title: An Evaluation Study of Intrinsic Motivation Techniques applied to
Reinforcement Learning over Hard Exploration Environments
- Title(参考訳): 硬い探索環境下での強化学習に応用した固有の動機づけ手法の評価
- Authors: Alain Andres, Esther Villar-Rodriguez, Javier Del Ser
- Abstract要約: 余分な報酬を伴う環境上で構成された強化学習タスクは特に顕著である。
内在的モチベーションのメカニズムは、これまでで最も研究されてきた選択肢の1つである。
この研究の目的は、硬い探査環境に対する強化学習において、この重要な事項を強調することである。
- 参考スコア(独自算出の注目度): 7.489793155793319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the last few years, the research activity around reinforcement learning
tasks formulated over environments with sparse rewards has been especially
notable. Among the numerous approaches proposed to deal with these hard
exploration problems, intrinsic motivation mechanisms are arguably among the
most studied alternatives to date. Advances reported in this area over time
have tackled the exploration issue by proposing new algorithmic ideas to
generate alternative mechanisms to measure the novelty. However, most efforts
in this direction have overlooked the influence of different design choices and
parameter settings that have also been introduced to improve the effect of the
generated intrinsic bonus, forgetting the application of those choices to other
intrinsic motivation techniques that may also benefit of them. Furthermore,
some of those intrinsic methods are applied with different base reinforcement
algorithms (e.g. PPO, IMPALA) and neural network architectures, being hard to
fairly compare the provided results and the actual progress provided by each
solution. The goal of this work is to stress on this crucial matter in
reinforcement learning over hard exploration environments, exposing the
variability and susceptibility of avant-garde intrinsic motivation techniques
to diverse design factors. Ultimately, our experiments herein reported
underscore the importance of a careful selection of these design aspects
coupled with the exploration requirements of the environment and the task in
question under the same setup, so that fair comparisons can be guaranteed.
- Abstract(参考訳): ここ数年、強化学習タスクに関する研究活動は、あまり報酬が得られていない環境でも特に注目されている。
これらの難しい探索問題に対処するために提案された多くのアプローチの中で、本質的な動機付けのメカニズムは、これまでで最も研究されてきた代替手段の1つである。
この領域で長年に渡り報告された進歩は、新奇性を測定するための代替メカニズムを生成するために新しいアルゴリズム的アイデアを提案することによって、探索問題に対処してきた。
しかし、この方向のほとんどの取り組みは、生成した内在的ボーナスの効果を改善するために導入された異なるデザイン選択とパラメータ設定の影響を見落としており、それらの選択の他の内在的モチベーション技術への適用を忘れている。
さらに、これらの本質的な手法のいくつかは、異なるベース強化アルゴリズム(例えば、PPO、IMPALA)とニューラルネットワークアーキテクチャで適用されており、与えられた結果と各ソリューションによって提供される実際の進捗を正確に比較することは困難である。
本研究の目的は, ハード探索環境における強化学習におけるこの重要な課題を強調し, 多様な設計要因に対する前衛固有の動機づけ技術の多様性と感受性を明らかにすることである。
最終的に、本稿の実験では、環境の探索要件と課題を同一設定で組み合わせた設計上の側面を慎重に選択することの重要性を強調し、公正な比較が保証されるようにした。
関連論文リスト
- Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Is Value Functions Estimation with Classification Plug-and-play for Offline Reinforcement Learning? [1.9116784879310031]
深層強化学習(RL)では、値関数はディープニューラルネットワークを用いて近似され、平均2乗誤差回帰目標を用いて訓練される。
近年の研究では、クロスエントロピー分類の目的を活かした代替手法が提案されている。
我々の研究は、オフラインのRLセットアップにおけるそのような置換の影響を実証的に調査することを目指している。
論文 参考訳(メタデータ) (2024-06-10T14:25:11Z) - Deep Learning-based Analysis of Basins of Attraction [49.812879456944984]
本研究は,様々な力学系における盆地の複雑さと予測不可能性を特徴づけることの課題に対処する。
主な焦点は、この分野における畳み込みニューラルネットワーク(CNN)の効率性を示すことである。
論文 参考訳(メタデータ) (2023-09-27T15:41:12Z) - Never Explore Repeatedly in Multi-Agent Reinforcement Learning [40.35950679063337]
我々は「リビジョン」と戦うための動的報酬スケーリング手法を提案する。
Google Research FootballやStarCraft IIのマイクロマネジメントタスクのような需要のある環境におけるパフォーマンスの向上を示す。
論文 参考訳(メタデータ) (2023-08-19T05:27:48Z) - Intrinsic Motivation in Model-based Reinforcement Learning: A Brief
Review [77.34726150561087]
本稿では,エージェントが獲得した世界モデルに基づいて,本質的な動機付けを決定するための既存の手法について考察する。
提案した統合フレームワークは,学習を改善するために,世界モデルと本質的なモチベーションを用いてエージェントのアーキテクチャを記述する。
論文 参考訳(メタデータ) (2023-01-24T15:13:02Z) - Towards Improving Exploration in Self-Imitation Learning using Intrinsic
Motivation [7.489793155793319]
強化学習(Reinforcement Learning)は、最適化タスクを効率的に解くための強力な代替手段として登場した。
これらのアルゴリズムの使用は、学習したエージェントが行う決定がどれほど良い(または悪い)かを知らせる環境の提供するフィードバック信号に大きく依存する。
この研究では、本質的な動機付けは、エージェントが好奇心に基づいて環境を探索することを奨励するのに対して、模倣学習は学習プロセスを加速するために最も有望な経験を繰り返すことができる。
論文 参考訳(メタデータ) (2022-11-30T09:18:59Z) - Deep Intrinsically Motivated Exploration in Continuous Control [0.0]
連続的なシステムでは、ネットワークのパラメータや選択されたアクションがランダムノイズによって乱されるような、間接的でない戦略によって探索が行われることが多い。
我々は、動物モチベーションシステムに関する既存の理論を強化学習パラダイムに適応させ、新しい探究戦略を導入する。
我々のフレームワークは、より大きく多様な状態空間に拡張し、ベースラインを劇的に改善し、間接的でない戦略を大幅に上回る。
論文 参考訳(メタデータ) (2022-10-01T14:52:16Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Collaborative Training of Heterogeneous Reinforcement Learning Agents in
Environments with Sparse Rewards: What and When to Share? [7.489793155793319]
本研究は,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を目的とした情報を組み合わせることに焦点を当てる。
計算コストの少ない協調的なフレームワークが知識を共有することなく独立した学習プロセスより優れていることを示す。
論文 参考訳(メタデータ) (2022-02-24T16:15:51Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Scaling up Search Engine Audits: Practical Insights for Algorithm
Auditing [68.8204255655161]
異なる地域に数百の仮想エージェントを配置した8つの検索エンジンの実験を行った。
複数のデータ収集にまたがる研究インフラの性能を実証する。
仮想エージェントは,アルゴリズムの性能を長時間にわたって監視するための,有望な場所である,と結論付けている。
論文 参考訳(メタデータ) (2021-06-10T15:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。