論文の概要: Exploration via Elliptical Episodic Bonuses
- arxiv url: http://arxiv.org/abs/2210.05805v1
- Date: Tue, 11 Oct 2022 22:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 12:50:29.746286
- Title: Exploration via Elliptical Episodic Bonuses
- Title(参考訳): 楕円型エピソディックボーナスによる探索
- Authors: Mikael Henaff, Roberta Raileanu, Minqi Jiang, Tim Rockt\"aschel
- Abstract要約: 連続状態空間にカウントベースのエピソードボーナスを拡張する新しい方法であるE3B(Episodic Bonuses)による探索を導入する。
提案手法は,タスク固有の帰納バイアスを必要とせずに,MiniHackスイートから16の課題にまたがる新しい最先端のタスクを設定する。
E3Bはまた、スパース報酬、ピクセルベースのVizDoom環境に関する既存の手法と一致し、Habitatでの報酬のない探索において、既存の手法よりも優れている。
- 参考スコア(独自算出の注目度): 22.404871878551354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, a number of reinforcement learning (RL) methods have been
proposed to explore complex environments which differ across episodes. In this
work, we show that the effectiveness of these methods critically relies on a
count-based episodic term in their exploration bonus. As a result, despite
their success in relatively simple, noise-free settings, these methods fall
short in more realistic scenarios where the state space is vast and prone to
noise. To address this limitation, we introduce Exploration via Elliptical
Episodic Bonuses (E3B), a new method which extends count-based episodic bonuses
to continuous state spaces and encourages an agent to explore states that are
diverse under a learned embedding within each episode. The embedding is learned
using an inverse dynamics model in order to capture controllable aspects of the
environment. Our method sets a new state-of-the-art across 16 challenging tasks
from the MiniHack suite, without requiring task-specific inductive biases. E3B
also matches existing methods on sparse reward, pixel-based VizDoom
environments, and outperforms existing methods in reward-free exploration on
Habitat, demonstrating that it can scale to high-dimensional pixel-based
observations and realistic environments.
- Abstract(参考訳): 近年,エピソードごとに異なる複雑な環境を探索するための強化学習(rl)手法が提案されている。
本研究は,これらの手法の有効性が,探索ボーナスにおけるカウントベースエピソード項に依存することを示す。
その結果、比較的単純でノイズのない環境での成功にもかかわらず、これらの手法は、状態空間が広くノイズのやすいより現実的なシナリオでは不十分である。
この制限に対処するために,e3b(elliptical episodic bonuses)による探索を導入する。e3bはカウントベースのエピソディックボーナスを連続状態空間に拡張し,各エピソードで学習された埋め込み下で多様な状態を探索するようにエージェントに促す新しい手法である。
埋め込みは、環境の制御可能な側面を捉えるために、逆ダイナミクスモデルを用いて学習される。
提案手法は,タスク固有の帰納バイアスを必要とせずに,MiniHackスイートから16の課題にまたがる新しい最先端のタスクを設定する。
E3Bはまた、スパース報酬、ピクセルベースのVizDoom環境の既存の手法と一致し、Habitatでの報酬のない探索において既存の手法よりも優れており、高次元のピクセルベースの観測や現実的な環境にスケールできることを実証している。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Rank the Episodes: A Simple Approach for Exploration in
Procedurally-Generated Environments [66.80667987347151]
固有の報酬に基づく方法は、しばしば手続き的に生成された環境で不足する。
RAPIDは、手続き的に生成された環境のためのシンプルで効果的なエピソードレベルの探索方法です。
そこで本手法は,MiniGrid環境,MiniWorldの3D Mazeナビゲーションタスク,MuJoCoタスクのスパースについて実証した。
論文 参考訳(メタデータ) (2021-01-20T14:22:01Z) - BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文 参考訳(メタデータ) (2020-12-15T21:26:54Z) - Latent World Models For Intrinsically Motivated Exploration [140.21871701134626]
画像に基づく観察のための自己教師付き表現学習法を提案する。
我々は、部分的に観測可能な環境の探索を導くために、エピソードおよび寿命の不確実性を考慮する。
論文 参考訳(メタデータ) (2020-10-05T19:47:04Z) - Novelty Search in Representational Space for Sample Efficient
Exploration [38.2027946450689]
本稿では,モデルベースとモデルフリーを併用して学習した環境の低次元符号化を利用する,効率的な探索手法を提案する。
提案手法では,低次元表現空間における近接する近傍の距離に基づく固有報酬を用いて,新規性を測る。
次に、これらの本質的な報酬をサンプル効率の高い探索に利用し、表現空間における計画ルーチンを、疎度な報酬を伴うハードな探索タスクに活用する。
論文 参考訳(メタデータ) (2020-09-28T18:51:52Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。