論文の概要: Exploring Unknown States with Action Balance
- arxiv url: http://arxiv.org/abs/2003.04518v2
- Date: Tue, 1 Sep 2020 07:11:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 20:37:48.292112
- Title: Exploring Unknown States with Action Balance
- Title(参考訳): アクションバランスによる未知の状態探索
- Authors: Yan Song, Yingfeng Chen, Yujing Hu, Changjie Fan
- Abstract要約: 探索は強化学習の鍵となる問題である。
次状態ボーナス法は、エージェントが既知の州を探索する際に過度に注意を払うよう強制する。
本研究では,与えられた状態における各行動を選択する頻度のバランスをとるアクションバランス探索を提案する。
- 参考スコア(独自算出の注目度): 48.330318997735574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration is a key problem in reinforcement learning. Recently bonus-based
methods have achieved considerable successes in environments where exploration
is difficult such as Montezuma's Revenge, which assign additional bonuses
(e.g., intrinsic rewards) to guide the agent to rarely visited states. Since
the bonus is calculated according to the novelty of the next state after
performing an action, we call such methods as the next-state bonus methods.
However, the next-state bonus methods force the agent to pay overmuch attention
in exploring known states and ignore finding unknown states since the
exploration is driven by the next state already visited, which may slow the
pace of finding reward in some environments. In this paper, we focus on
improving the effectiveness of finding unknown states and propose action
balance exploration, which balances the frequency of selecting each action at a
given state and can be treated as an extension of upper confidence bound (UCB)
to deep reinforcement learning. Moreover, we propose action balance RND that
combines the next-state bonus methods (e.g., random network distillation
exploration, RND) and our action balance exploration to take advantage of both
sides. The experiments on the grid world and Atari games demonstrate action
balance exploration has a better capability in finding unknown states and can
improve the performance of RND in some hard exploration environments
respectively.
- Abstract(参考訳): 探索は強化学習の鍵となる問題である。
近年、モンテズマのレベンジ(Revenge)のような探検が困難な環境では、エージェントを滅多に訪れない州に誘導するために追加のボーナス(本質的な報酬など)を割り当てるボーナスベースの手法が大きな成功を収めている。
動作の後に次の状態の新規性に応じてボーナスが計算されるので、次の状態のボーナス方法のような手法を呼ぶ。
しかし、次の国家ボーナス法は、エージェントが既知の州を探索する際、過度な注意を払うことを強制し、探索が既に訪れた次の州によって駆動されるため、未知の州を見つけることを無視する。
本稿では,未知状態の発見の有効性の向上に焦点をあて,与えられた状態における各行動の選択頻度のバランスをとるアクションバランス探索を提案し,より深い強化学習への高信頼境界(UCB)の拡張として扱うことができる。
さらに,次世代のボーナス手法(例えば,ランダムネットワーク蒸留探索,RND)と,両面を利用するためのアクションバランス探索を組み合わせたアクションバランスRNDを提案する。
grid world と atari games における実験は、アクションバランス探索は未知の状態を見つけるのにより良い能力を持ち、いくつかの難しい探索環境でそれぞれ rnd の性能を向上させることができることを示した。
関連論文リスト
- Reward Augmentation in Reinforcement Learning for Testing Distributed Systems [6.0560257343687995]
人気のある分散プロトコル実装のバグは、人気のあるインターネットサービスにおける多くのダウンタイムの源となっている。
本稿では,強化学習に基づく分散プロトコル実装のためのランダム化テスト手法について述べる。
お互いに構築する2つの異なるテクニックを示します。
論文 参考訳(メタデータ) (2024-09-02T15:07:05Z) - Accelerating Reinforcement Learning with Value-Conditional State Entropy Exploration [97.19464604735802]
探索のための有望な技術は、訪問状態分布のエントロピーを最大化することである。
エージェントが高価値の状態を訪問することを好むような、タスク報酬を伴う教師付きセットアップで苦労する傾向があります。
本稿では,値条件のエントロピーを最大化する新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T01:09:28Z) - Neighboring state-based RL Exploration [1.5935205681539144]
本研究では, 早期エージェントとして, 近隣の州の境界領域から派生した行動が, 探索時により良い行動をもたらす可能性があるという直感から, 近隣の州を基盤としたモデルフリーな探索について検討する。
本稿では,近傍の州を対象に探索行動を選択する2つのアルゴリズムを提案し,その1つの手法である$rho$-exploreが,離散環境におけるDouble DQNベースラインを,Eval Reward Returnで49%向上させることを確認した。
論文 参考訳(メタデータ) (2022-12-21T01:23:53Z) - GAN-based Intrinsic Exploration For Sample Efficient Reinforcement
Learning [0.0]
本稿では,観測状態の分布を学習し,分布外である状態に対して高い確率で計算される固有報酬を送信する。
我々はスーパーマリオブラザーズでの報酬設定を無報酬で評価し、モンテズマの復讐設定を軽度に評価し、我々のアプローチが実際に効率的に探索可能であることを示す。
論文 参考訳(メタデータ) (2022-06-28T19:16:52Z) - SEREN: Knowing When to Explore and When to Exploit [14.188362393915432]
本稿では,SEREN(Sive Reinforcement Exploration Network)を紹介する。
インパルス制御(英語版)として知られる政策を用いて、スイッチャーは探索政策に切り替える最良の状態のセットを決定することができる。
我々は、SERENが急速に収束し、純粋な搾取に向けた自然なスケジュールを導き出すことを証明した。
論文 参考訳(メタデータ) (2022-05-30T12:44:56Z) - Generative Adversarial Exploration for Reinforcement Learning [48.379457575356454]
本稿では, GAEX (Generative Adversarial Explor) と呼ばれる新しい手法を提案し, 強化学習における探索を奨励する。
実験では,ゲームVenture,Montzuma's Revenge,Super Mario BrosにGAEXを適用した。
我々の知る限り、これはRL探査問題にGANを用いた最初の研究である。
論文 参考訳(メタデータ) (2022-01-27T17:34:47Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Fast active learning for pure exploration in reinforcement learning [48.98199700043158]
1/n$でスケールしたボーナスはより高速な学習率をもたらし、地平線への依存に関して既知の上限を改善します。
また, 停止時間の解析を改良することにより, 最良政体識別設定におけるサンプルの複雑さを$H$で改善できることも示している。
論文 参考訳(メタデータ) (2020-07-27T11:28:32Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。