論文の概要: Temporally-Extended {\epsilon}-Greedy Exploration
- arxiv url: http://arxiv.org/abs/2006.01782v1
- Date: Tue, 2 Jun 2020 17:02:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 23:35:32.088170
- Title: Temporally-Extended {\epsilon}-Greedy Exploration
- Title(参考訳): 一時的に延長されたテプシロン-グレディ探査
- Authors: Will Dabney, Georg Ostrovski, Andr\'e Barreto
- Abstract要約: ディザリングを低減しつつ,エプシロングレーディの単純さを維持する探索アルゴリズムを提案する。
多くの期間にわたって、これは大きな領域の探索を改善するのに十分であることがわかった。
- 参考スコア(独自算出の注目度): 17.776146494973574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work on exploration in reinforcement learning (RL) has led to a series
of increasingly complex solutions to the problem. This increase in complexity
often comes at the expense of generality. Recent empirical studies suggest
that, when applied to a broader set of domains, some sophisticated exploration
methods are outperformed by simpler counterparts, such as {\epsilon}-greedy. In
this paper we propose an exploration algorithm that retains the simplicity of
{\epsilon}-greedy while reducing dithering. We build on a simple hypothesis:
the main limitation of {\epsilon}-greedy exploration is its lack of temporal
persistence, which limits its ability to escape local optima. We propose a
temporally extended form of {\epsilon}-greedy that simply repeats the sampled
action for a random duration. It turns out that, for many duration
distributions, this suffices to improve exploration on a large set of domains.
Interestingly, a class of distributions inspired by ecological models of animal
foraging behaviour yields particularly strong performance.
- Abstract(参考訳): 強化学習(RL)における最近の研究は、この問題に対する様々な複雑な解決策を生み出している。
この複雑さの増大は、しばしば一般性の犠牲になる。
最近の実証研究は、より広い範囲の領域に適用すると、いくつかの洗練された探査法は、例えば {\epsilon}-greedyのようなより単純な手法よりも優れていることを示唆している。
本稿では,ディザリングを低減しつつ,"epsilon}-greedyの単純さを保った探索アルゴリズムを提案する。
我々は単純な仮説の上に構築する: {\epsilon}-greedy 探索の主な限界は、時間的持続性の欠如であり、局所的な最適化から逃れる能力を制限することである。
本稿では, サンプル動作を無作為に反復する時間拡張型 {\epsilon}-greedyを提案する。
多くの期間分布において、これは多数のドメインの探索を改善するのに十分であることが判明した。
興味深いことに、動物食行動の生態モデルにインスパイアされた分布のクラスは、特に強いパフォーマンスをもたらす。
関連論文リスト
- Deterministic Exploration via Stationary Bellman Error Maximization [6.474106100512158]
探索は強化学習(RL)の重要かつ特異な側面である
本稿では,後者を安定させ,決定論的探索政策に到達するための3つの修正点を紹介する。
実験結果から,本手法は高密度かつスパースな報酬設定において,$varepsilon$-greedyよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-31T11:46:48Z) - Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - Guarantees for Epsilon-Greedy Reinforcement Learning with Function
Approximation [69.1524391595912]
エプシロングレーディ、ソフトマックス、ガウシアンノイズといった神秘的な探索政策は、いくつかの強化学習タスクにおいて効率的に探索することができない。
本稿では,このような政策を理論的に分析し,筋電図探索による強化学習のための最初の後悔とサンプル複雑度境界を提供する。
論文 参考訳(メタデータ) (2022-06-19T14:44:40Z) - k-Means Maximum Entropy Exploration [55.81894038654918]
余分な報酬を伴う連続空間での探索は、強化学習におけるオープンな問題である。
本研究では, 状態訪問分布のエントロピーに対する近似値の低界化に基づく人工好奇性アルゴリズムを提案する。
提案手法は,高次元連続空間における探索のためのベンチマークにおいて,計算効率と競合性の両方を示す。
論文 参考訳(メタデータ) (2022-05-31T09:05:58Z) - Capturing the temporal constraints of gradual patterns [0.0]
段階的パターンマイニング(Gradual pattern mining)は、「Xを多くすればYを多くする」といった段階的規則を通じて属性相関を抽出することを可能にする。
例えば、研究者は段階的なパターンマイニングを適用して、データセットのどの属性が不慣れな相関を示すかを決定することで、より深い探索や分析のためにそれらを分離することができる。
この作業は、私たちの社会のほぼすべての領域でIoTアプリケーションの普及によって動機付けられています。
論文 参考訳(メタデータ) (2021-06-28T06:45:48Z) - Geometric Entropic Exploration [52.67987687712534]
離散領域と連続領域の両方における状態ビジットの幾何認識シャノンエントロピーを最大化する新しいアルゴリズムを導入する。
私たちの重要な理論的貢献は、単純で新しいノイズコントラストの客観的関数を最適化する牽引可能な問題としてジオメトリ認識MSVE探索を鋳造することです。
実験では,他の深部RL探査手法と比較して,疎度な報酬を伴う複数のRL問題の解法におけるGEMの効率性を示した。
論文 参考訳(メタデータ) (2021-01-06T14:15:07Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Reinforcement Learning with Probabilistically Complete Exploration [27.785017885906313]
素早いランダム探索型強化学習(R3L)を提案する。
探索問題を探索問題として定式化し、初期解を見つけるために広く利用されている計画アルゴリズムを活用する。
本手法を実験的に実証し,少数の探査サンプルを必要とせず,性能が向上した。
論文 参考訳(メタデータ) (2020-01-20T02:11:24Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。