論文の概要: SEREN: Knowing When to Explore and When to Exploit
- arxiv url: http://arxiv.org/abs/2205.15064v1
- Date: Mon, 30 May 2022 12:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 18:03:59.789563
- Title: SEREN: Knowing When to Explore and When to Exploit
- Title(参考訳): SEREN: いつ、いつ、いつ爆発するかを知る
- Authors: Changmin Yu, David Mguni, Dong Li, Aivar Sootla, Jun Wang, Neil
Burgess
- Abstract要約: 本稿では,SEREN(Sive Reinforcement Exploration Network)を紹介する。
インパルス制御(英語版)として知られる政策を用いて、スイッチャーは探索政策に切り替える最良の状態のセットを決定することができる。
我々は、SERENが急速に収束し、純粋な搾取に向けた自然なスケジュールを導き出すことを証明した。
- 参考スコア(独自算出の注目度): 14.188362393915432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient reinforcement learning (RL) involves a trade-off between
"exploitative" actions that maximise expected reward and "explorative'" ones
that sample unvisited states. To encourage exploration, recent approaches
proposed adding stochasticity to actions, separating exploration and
exploitation phases, or equating reduction in uncertainty with reward. However,
these techniques do not necessarily offer entirely systematic approaches making
this trade-off. Here we introduce SElective Reinforcement Exploration Network
(SEREN) that poses the exploration-exploitation trade-off as a game between an
RL agent -- \exploiter, which purely exploits known rewards, and another RL
agent -- \switcher, which chooses at which states to activate a pure
exploration policy that is trained to minimise system uncertainty and override
Exploiter. Using a form of policies known as impulse control, \switcher is able
to determine the best set of states to switch to the exploration policy while
Exploiter is free to execute its actions everywhere else. We prove that SEREN
converges quickly and induces a natural schedule towards pure exploitation.
Through extensive empirical studies in both discrete (MiniGrid) and continuous
(MuJoCo) control benchmarks, we show that SEREN can be readily combined with
existing RL algorithms to yield significant improvement in performance relative
to state-of-the-art algorithms.
- Abstract(参考訳): 効率的な強化学習(RL)は、期待される報酬を最大化する「探索的」行動と、目に見えない状態をサンプリングする「探索的」行動とのトレードオフを伴う。
探索を促進するために、近年のアプローチでは、行動に確率性を加えること、探索と搾取フェーズを分離すること、不確実性の低減と報酬を同等にすることを提案した。
しかし、これらの手法は必ずしも完全な体系的なアプローチを提供してはいない。
ここでは、既知の報酬を純粋に活用するRLエージェントと、システム不確実性を最小化し、エクスプロイターをオーバーライドするように訓練された純粋な探査ポリシーをどの州で有効にするかを選択するRLエージェント- \exploiterと、他のRLエージェント- \switcherとのゲームとして、探索・探索のトレードオフを示すセレクティブ強化探索ネットワーク(SEREN)を紹介する。
インパルス制御(英語版)として知られる政策の形式を用いて、シャスウィッチャーは探検政策に切り替える最良の州を決定できるが、エクスプロイターはあらゆる場所で自由に行動を実行することができる。
SERENは急速に収束し、純粋な利用に向けて自然なスケジュールを導き出す。
離散的(MiniGrid)および連続的(MuJoCo)制御ベンチマークの広範な実証研究を通じて、SERENが既存のRLアルゴリズムと容易に組み合わせることで、最先端のアルゴリズムと比較して性能が大幅に向上することを示した。
関連論文リスト
- Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Exploration and Incentives in Reinforcement Learning [107.42240386544633]
各エージェントが同一(ただし未知)のMDPに直面する複雑な探索問題を考察する。
エージェントはポリシーの選択を制御するが、アルゴリズムは推奨事項のみを発行できる。
MDPのすべての到達可能な状態を探索するアルゴリズムを設計します。
論文 参考訳(メタデータ) (2021-02-28T00:15:53Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Intrinsic Exploration as Multi-Objective RL [29.124322674133]
内在的モチベーションは、報酬が非常に少ないときに強化学習(RL)エージェントを探索することを可能にする。
本稿では,多目的RLに基づくフレームワークを提案する。
この定式化は、探索と搾取のバランスを政策レベルでもたらし、従来の方法よりも有利になる。
論文 参考訳(メタデータ) (2020-04-06T02:37:29Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。