論文の概要: BeBold: Exploration Beyond the Boundary of Explored Regions
- arxiv url: http://arxiv.org/abs/2012.08621v1
- Date: Tue, 15 Dec 2020 21:26:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 05:40:39.314456
- Title: BeBold: Exploration Beyond the Boundary of Explored Regions
- Title(参考訳): BeBold: 探索地域の境界を越えた探索
- Authors: Tianjun Zhang, Huazhe Xu, Xiaolong Wang, Yi Wu, Kurt Keutzer, Joseph
E. Gonzalez, Yuandong Tian
- Abstract要約: 本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
- 参考スコア(独自算出の注目度): 66.88415950549556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient exploration under sparse rewards remains a key challenge in deep
reinforcement learning. To guide exploration, previous work makes extensive use
of intrinsic reward (IR). There are many heuristics for IR, including
visitation counts, curiosity, and state-difference. In this paper, we analyze
the pros and cons of each method and propose the regulated difference of
inverse visitation counts as a simple but effective criterion for IR. The
criterion helps the agent explore Beyond the Boundary of explored regions and
mitigates common issues in count-based methods, such as short-sightedness and
detachment. The resulting method, BeBold, solves the 12 most challenging
procedurally-generated tasks in MiniGrid with just 120M environment steps,
without any curriculum learning. In comparison, the previous SoTA only solves
50% of the tasks. BeBold also achieves SoTA on multiple tasks in NetHack, a
popular rogue-like game that contains more challenging procedurally-generated
environments.
- Abstract(参考訳): スパース報酬の下での効率的な探索は、深層強化学習の重要な課題である。
探索のガイドとして,従来の研究は本質的な報酬(IR)を広く活用していた。
IRには訪問数、好奇心、国家差など多くのヒューリスティックがある。
本稿では,各手法の長所と短所を解析し,逆訪問回数の規制的差をIRの簡易かつ効果的な基準として提案する。
この基準は、調査対象の領域の境界を越えて探索し、近視力や分断のようなカウントベースの方法における共通の問題を緩和するのに役立つ。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
一方、以前のSoTAはタスクの50%しか解決していない。
BeBoldはまた、より難しい手続き的に生成された環境を含む人気のあるローグのようなゲームNetHackの複数のタスクでSoTAを達成している。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - First Go, then Post-Explore: the Benefits of Post-Exploration in
Intrinsic Motivation [7.021281655855703]
Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。
Go-Exploreの主な洞察は、調査を成功させるためには、エージェントが最初に興味深い状態に戻る必要があります。
目標達成後の探査を「後探査」と呼ぶ。
論文 参考訳(メタデータ) (2022-12-06T18:56:47Z) - Exploration via Elliptical Episodic Bonuses [22.404871878551354]
連続状態空間にカウントベースのエピソードボーナスを拡張する新しい方法であるE3B(Episodic Bonuses)による探索を導入する。
提案手法は,タスク固有の帰納バイアスを必要とせずに,MiniHackスイートから16の課題にまたがる新しい最先端のタスクを設定する。
E3Bはまた、スパース報酬、ピクセルベースのVizDoom環境に関する既存の手法と一致し、Habitatでの報酬のない探索において、既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-10-11T22:10:23Z) - Exploration in Deep Reinforcement Learning: A Survey [4.066140143829243]
スパース報酬問題の解決には探索技術が重要である。
スパース報酬問題では報酬は稀であり、エージェントがランダムに振る舞うことで報酬を見つけられないことを意味する。
本総説では,既存探査手法の概要について概説する。
論文 参考訳(メタデータ) (2022-05-02T12:03:44Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Rank the Episodes: A Simple Approach for Exploration in
Procedurally-Generated Environments [66.80667987347151]
固有の報酬に基づく方法は、しばしば手続き的に生成された環境で不足する。
RAPIDは、手続き的に生成された環境のためのシンプルで効果的なエピソードレベルの探索方法です。
そこで本手法は,MiniGrid環境,MiniWorldの3D Mazeナビゲーションタスク,MuJoCoタスクのスパースについて実証した。
論文 参考訳(メタデータ) (2021-01-20T14:22:01Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。