論文の概要: Generative Adversarial Exploration for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2201.11685v1
- Date: Thu, 27 Jan 2022 17:34:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 14:07:22.772757
- Title: Generative Adversarial Exploration for Reinforcement Learning
- Title(参考訳): 強化学習のための生成的敵探索
- Authors: Weijun Hong, Menghui Zhu, Minghuan Liu, Weinan Zhang, Ming Zhou, Yong
Yu, Peng Sun
- Abstract要約: 本稿では, GAEX (Generative Adversarial Explor) と呼ばれる新しい手法を提案し, 強化学習における探索を奨励する。
実験では,ゲームVenture,Montzuma's Revenge,Super Mario BrosにGAEXを適用した。
我々の知る限り、これはRL探査問題にGANを用いた最初の研究である。
- 参考スコア(独自算出の注目度): 48.379457575356454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration is crucial for training the optimal reinforcement learning (RL)
policy, where the key is to discriminate whether a state visiting is novel.
Most previous work focuses on designing heuristic rules or distance metrics to
check whether a state is novel without considering such a discrimination
process that can be learned. In this paper, we propose a novel method called
generative adversarial exploration (GAEX) to encourage exploration in RL via
introducing an intrinsic reward output from a generative adversarial network,
where the generator provides fake samples of states that help discriminator
identify those less frequently visited states. Thus the agent is encouraged to
visit those states which the discriminator is less confident to judge as
visited. GAEX is easy to implement and of high training efficiency. In our
experiments, we apply GAEX into DQN and the DQN-GAEX algorithm achieves
convincing performance on challenging exploration problems, including the game
Venture, Montezuma's Revenge and Super Mario Bros, without further fine-tuning
on complicate learning algorithms. To our knowledge, this is the first work to
employ GAN in RL exploration problems.
- Abstract(参考訳): 探索は、国家訪問が新規であるかどうかを識別することが鍵となる最適な強化学習(RL)政策の訓練に不可欠である。
以前の研究では、経験則や距離メトリクスの設計に重点を置いており、学習可能な識別過程を考慮せずに、状態が新しいかどうかをチェックする。
本稿では,ジェネラティブ・アドバーサリアン・ネットワークから得られる内在的な報酬を導入することで,rlの探索を促進するためのジェネラティブ・アドバーサリアン・エクスプロレーション(gaex)と呼ばれる新しい手法を提案する。
したがって、エージェントは、被差別者が訪問したように判断する自信が低い状態を訪れることを奨励される。
GAEXは実装が容易で、訓練効率が高い。
実験では,DQNとDQN-GAEXにGAEXを適用し,複雑な学習アルゴリズムをさらに微調整することなく,ゲームVenture,Montzuma's Revenge,Super Mario Brosなどの探索問題に対する説得力のある性能を実現する。
我々の知る限り、これはRL探査問題にGANを用いた最初の研究である。
関連論文リスト
- Neighboring state-based RL Exploration [1.5935205681539144]
本研究では, 早期エージェントとして, 近隣の州の境界領域から派生した行動が, 探索時により良い行動をもたらす可能性があるという直感から, 近隣の州を基盤としたモデルフリーな探索について検討する。
本稿では,近傍の州を対象に探索行動を選択する2つのアルゴリズムを提案し,その1つの手法である$rho$-exploreが,離散環境におけるDouble DQNベースラインを,Eval Reward Returnで49%向上させることを確認した。
論文 参考訳(メタデータ) (2022-12-21T01:23:53Z) - First Go, then Post-Explore: the Benefits of Post-Exploration in
Intrinsic Motivation [7.021281655855703]
Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。
Go-Exploreの主な洞察は、調査を成功させるためには、エージェントが最初に興味深い状態に戻る必要があります。
目標達成後の探査を「後探査」と呼ぶ。
論文 参考訳(メタデータ) (2022-12-06T18:56:47Z) - SEREN: Knowing When to Explore and When to Exploit [14.188362393915432]
本稿では,SEREN(Sive Reinforcement Exploration Network)を紹介する。
インパルス制御(英語版)として知られる政策を用いて、スイッチャーは探索政策に切り替える最良の状態のセットを決定することができる。
我々は、SERENが急速に収束し、純粋な搾取に向けた自然なスケジュールを導き出すことを証明した。
論文 参考訳(メタデータ) (2022-05-30T12:44:56Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Exploration and Incentives in Reinforcement Learning [107.42240386544633]
各エージェントが同一(ただし未知)のMDPに直面する複雑な探索問題を考察する。
エージェントはポリシーの選択を制御するが、アルゴリズムは推奨事項のみを発行できる。
MDPのすべての到達可能な状態を探索するアルゴリズムを設計します。
論文 参考訳(メタデータ) (2021-02-28T00:15:53Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - First return, then explore [18.876005532689234]
Go-Exploreは、有望な状態を明示的に記憶し、意図的に探索する前に最初にそのような状態に戻るアルゴリズムのファミリーである。
Go-Exploreは、これまで未解決だったAtariゲームをすべて解決し、ハード探索ゲームにおける最先端の技術を超越している。
目標条件付きポリシーを追加することで、Go-Exploreの探索効率をさらに向上し、トレーニング全体を通して処理できることを示す。
論文 参考訳(メタデータ) (2020-04-27T16:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。