論文の概要: On Bonus-Based Exploration Methods in the Arcade Learning Environment
- arxiv url: http://arxiv.org/abs/2109.11052v1
- Date: Wed, 22 Sep 2021 21:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 14:56:47.874642
- Title: On Bonus-Based Exploration Methods in the Arcade Learning Environment
- Title(参考訳): アーケード学習環境におけるボーナスに基づく探索手法について
- Authors: Adrien Ali Ta\"iga, William Fedus, Marlos C. Machado, Aaron Courville
and Marc G. Bellemare
- Abstract要約: 我々は,一般的な評価枠組みの中で,一般的なボーナスベースの探索手法を再評価する。
探索ボーナスはモンテズマの復讐に高いスコアをもたらすが、単純な$epsilon$-greedyスキームよりも有意義な利得は得られない。
以上の結果から,モンテズマ・リベンジの最近の増加は,より優れた探査計画ではなく,アーキテクチャの変化によるものである可能性が示唆された。
- 参考スコア(独自算出の注目度): 32.566680360318756
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Research on exploration in reinforcement learning, as applied to Atari 2600
game-playing, has emphasized tackling difficult exploration problems such as
Montezuma's Revenge (Bellemare et al., 2016). Recently, bonus-based exploration
methods, which explore by augmenting the environment reward, have reached
above-human average performance on such domains. In this paper we reassess
popular bonus-based exploration methods within a common evaluation framework.
We combine Rainbow (Hessel et al., 2018) with different exploration bonuses and
evaluate its performance on Montezuma's Revenge, Bellemare et al.'s set of hard
of exploration games with sparse rewards, and the whole Atari 2600 suite. We
find that while exploration bonuses lead to higher score on Montezuma's Revenge
they do not provide meaningful gains over the simpler $\epsilon$-greedy scheme.
In fact, we find that methods that perform best on that game often underperform
$\epsilon$-greedy on easy exploration Atari 2600 games. We find that our
conclusions remain valid even when hyperparameters are tuned for these
easy-exploration games. Finally, we find that none of the methods surveyed
benefit from additional training samples (1 billion frames, versus Rainbow's
200 million) on Bellemare et al.'s hard exploration games. Our results suggest
that recent gains in Montezuma's Revenge may be better attributed to
architecture change, rather than better exploration schemes; and that the real
pace of progress in exploration research for Atari 2600 games may have been
obfuscated by good results on a single domain.
- Abstract(参考訳): atari 2600ゲームプレイに適用される強化学習の探索研究は、モンテズマの復讐(bellemare et al., 2016)のような難しい探索問題に取り組むことを強調している。
近年,環境報酬を増進して探索するボーナスベースの探索手法が,その領域における人間平均性能に到達している。
本稿では,一般的なボーナスに基づく探索手法を再評価する。
我々はRainbow(Hessel et al., 2018)をさまざまな探索ボーナスと組み合わせて、モンテズマのRevenge、Belemare et al.の探検難度の高いゲームセット、そしてAtari 2600スイート全体のパフォーマンスを評価します。
探索ボーナスはモンテズマの復讐に高いスコアをもたらすが、より単純な$\epsilon$-greedyスキームよりも有意義な利益をもたらすことはない。
実際、Atari 2600ゲームを簡単に探索する上で、そのゲームで最高のパフォーマンスを発揮する手法は、しばしば$\epsilon$-greedyを過小評価する。
これらの簡単な探索ゲームに対してハイパーパラメータをチューニングしても、我々の結論は有効である。
最後に、調査された方法のいずれも、bellemareらによるハードエクスプロレーションゲームで追加のトレーニングサンプル(10億フレーム、レインボーの2億フレーム)の恩恵を受けていないことが分かりました。
その結果,近年のモンテズマの復讐の成果は,より優れた探索計画ではなく,アーキテクチャの変化に起因している可能性が示唆された。
関連論文リスト
- Redeeming Intrinsic Rewards via Constrained Optimization [17.203887958936168]
最先端強化学習(RL)アルゴリズムは、通常、探索にランダムサンプリング(例えば$epsilon$-greedy)を用いるが、モンテズマのRevengeのようなハードな探索には失敗する。
探索ボーナス(本質的な報酬または好奇心とも呼ばれる)を使って、エージェントが新しい国家を訪問する動機付けをする以前の作品
このような手法は, 厳密な探索作業において優れた結果をもたらすが, 課題報酬のみを用いて訓練したエージェントと比較して, 内在的な報酬バイアスや過小評価に悩まされる可能性がある。
そこで本研究では,本質的な報酬の重要度を自動的に調整する制約付きポリシ最適化手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T18:49:26Z) - GAN-based Intrinsic Exploration For Sample Efficient Reinforcement
Learning [0.0]
本稿では,観測状態の分布を学習し,分布外である状態に対して高い確率で計算される固有報酬を送信する。
我々はスーパーマリオブラザーズでの報酬設定を無報酬で評価し、モンテズマの復讐設定を軽度に評価し、我々のアプローチが実際に効率的に探索可能であることを示す。
論文 参考訳(メタデータ) (2022-06-28T19:16:52Z) - BYOL-Explore: Exploration by Bootstrapped Prediction [49.221173336814225]
BYOL-Exploreは、視覚的に複雑な環境で好奇心を駆使した探索のための概念的には単純だが一般的なアプローチである。
BYOL-Explore は DM-HARD-8 において有効であることを示す。
論文 参考訳(メタデータ) (2022-06-16T17:36:15Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Regret Bounds and Reinforcement Learning Exploration of EXP-based Algorithms [12.547006167704398]
バンディットと強化学習の両方において、報酬がスケールフリーであり、潜在的に非バウンドである、挑戦的な探索インセンティブ問題について検討する。
バンディットを探索するための複数のエージェントを統合するEXP型手法により,無拘束報酬の場合の探索のためのEXP4.PとEXP4-RLという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-20T22:31:37Z) - Fast active learning for pure exploration in reinforcement learning [48.98199700043158]
1/n$でスケールしたボーナスはより高速な学習率をもたらし、地平線への依存に関して既知の上限を改善します。
また, 停止時間の解析を改良することにより, 最良政体識別設定におけるサンプルの複雑さを$H$で改善できることも示している。
論文 参考訳(メタデータ) (2020-07-27T11:28:32Z) - Exploring Unknown States with Action Balance [48.330318997735574]
探索は強化学習の鍵となる問題である。
次状態ボーナス法は、エージェントが既知の州を探索する際に過度に注意を払うよう強制する。
本研究では,与えられた状態における各行動を選択する頻度のバランスをとるアクションバランス探索を提案する。
論文 参考訳(メタデータ) (2020-03-10T03:32:28Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。