論文の概要: Rank the Episodes: A Simple Approach for Exploration in
Procedurally-Generated Environments
- arxiv url: http://arxiv.org/abs/2101.08152v2
- Date: Thu, 4 Feb 2021 15:48:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 01:21:04.872429
- Title: Rank the Episodes: A Simple Approach for Exploration in
Procedurally-Generated Environments
- Title(参考訳): エピソードのランク付け:手続き的生成環境における探索のための簡単なアプローチ
- Authors: Daochen Zha, Wenye Ma, Lei Yuan, Xia Hu, Ji Liu
- Abstract要約: 固有の報酬に基づく方法は、しばしば手続き的に生成された環境で不足する。
RAPIDは、手続き的に生成された環境のためのシンプルで効果的なエピソードレベルの探索方法です。
そこで本手法は,MiniGrid環境,MiniWorldの3D Mazeナビゲーションタスク,MuJoCoタスクのスパースについて実証した。
- 参考スコア(独自算出の注目度): 66.80667987347151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration under sparse reward is a long-standing challenge of model-free
reinforcement learning. The state-of-the-art methods address this challenge by
introducing intrinsic rewards to encourage exploration in novel states or
uncertain environment dynamics. Unfortunately, methods based on intrinsic
rewards often fall short in procedurally-generated environments, where a
different environment is generated in each episode so that the agent is not
likely to visit the same state more than once. Motivated by how humans
distinguish good exploration behaviors by looking into the entire episode, we
introduce RAPID, a simple yet effective episode-level exploration method for
procedurally-generated environments. RAPID regards each episode as a whole and
gives an episodic exploration score from both per-episode and long-term views.
Those highly scored episodes are treated as good exploration behaviors and are
stored in a small ranking buffer. The agent then imitates the episodes in the
buffer to reproduce the past good exploration behaviors. We demonstrate our
method on several procedurally-generated MiniGrid environments, a
first-person-view 3D Maze navigation task from MiniWorld, and several sparse
MuJoCo tasks. The results show that RAPID significantly outperforms the
state-of-the-art intrinsic reward strategies in terms of sample efficiency and
final performance. The code is available at https://github.com/daochenzha/rapid
- Abstract(参考訳): スパース報酬の下での探索は、モデルなし強化学習の長年にわたる課題である。
state-of-the-artメソッドは、新しい状態や不確定な環境ダイナミクスの探求を促進するために内在的な報酬を導入することで、この課題に対処している。
残念ながら、本態的な報酬に基づく手法は、各エピソードで異なる環境が生成され、エージェントが1回以上同じ状態を訪れないような手続き的に生成された環境では、しばしば不足する。
RAPIDは, 手続き的に生成した環境に対して, 単純かつ効果的なエピソードレベルの探索手法である。
ラピッドは各エピソード全体を概観し、各エピソードごとに長期的な視点からエピソディックな探索スコアを与える。
これらの高得点エピソードは良好な探索行動として扱われ、小さなランキングバッファに格納される。
エージェントはバッファ内のエピソードを模倣して過去の良好な探索行動を再現する。
提案手法は, 手続き的に生成したMiniGrid環境とMiniWorldからの1対1の3D Mazeナビゲーションタスクと, スパースなMuJoCoタスクについて実証する。
その結果、RAPIDはサンプル効率と最終性能の点で最先端の固有報酬戦略を著しく上回っていることがわかった。
コードはhttps://github.com/daochenzha/rapidで入手できる。
関連論文リスト
- Neuro-Inspired Fragmentation and Recall to Overcome Catastrophic
Forgetting in Curiosity [31.396929282048916]
深層強化学習法は様々なタスクにおいて顕著な性能を示すが,広い環境下での探索に苦戦している。
予測に基づく本質的な報酬は、エージェントがハードな探索タスクを解くのに役立つが、それらは破滅的な忘れに苦しむ可能性がある。
本研究では,人間と動物の学習方法に触発された新しい手法FARCuriosityを提案する。
論文 参考訳(メタデータ) (2023-10-26T16:28:17Z) - Exploration via Elliptical Episodic Bonuses [22.404871878551354]
連続状態空間にカウントベースのエピソードボーナスを拡張する新しい方法であるE3B(Episodic Bonuses)による探索を導入する。
提案手法は,タスク固有の帰納バイアスを必要とせずに,MiniHackスイートから16の課題にまたがる新しい最先端のタスクを設定する。
E3Bはまた、スパース報酬、ピクセルベースのVizDoom環境に関する既存の手法と一致し、Habitatでの報酬のない探索において、既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-10-11T22:10:23Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文 参考訳(メタデータ) (2020-12-15T21:26:54Z) - Fast active learning for pure exploration in reinforcement learning [48.98199700043158]
1/n$でスケールしたボーナスはより高速な学習率をもたらし、地平線への依存に関して既知の上限を改善します。
また, 停止時間の解析を改良することにより, 最良政体識別設定におけるサンプルの複雑さを$H$で改善できることも示している。
論文 参考訳(メタデータ) (2020-07-27T11:28:32Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。