論文の概要: Sparse Reward Exploration via Novelty Search and Emitters
- arxiv url: http://arxiv.org/abs/2102.03140v1
- Date: Fri, 5 Feb 2021 12:34:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 14:47:35.666839
- Title: Sparse Reward Exploration via Novelty Search and Emitters
- Title(参考訳): 新規検索とエミッターによるスパース報酬探索
- Authors: Giuseppe Paolo (1 and 2), Alexandre Coninx (1), Stephane Doncieux (1),
Alban Laflaqui\`ere (2) ((1) ISIR, (2) SBRE)
- Abstract要約: 本稿では,SparsE Reward Exploration via Novelty and Emitters (SERENE)アルゴリズムを提案する。
SERENEは、探索空間の探索と報酬の搾取を2つの交互プロセスに分けている。
メタスケジューラは、2つのプロセス間の交互にグローバルな計算予算を割り当てる。
- 参考スコア(独自算出の注目度): 55.41644538483948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward-based optimization algorithms require both exploration, to find
rewards, and exploitation, to maximize performance. The need for efficient
exploration is even more significant in sparse reward settings, in which
performance feedback is given sparingly, thus rendering it unsuitable for
guiding the search process. In this work, we introduce the SparsE Reward
Exploration via Novelty and Emitters (SERENE) algorithm, capable of efficiently
exploring a search space, as well as optimizing rewards found in potentially
disparate areas. Contrary to existing emitters-based approaches, SERENE
separates the search space exploration and reward exploitation into two
alternating processes. The first process performs exploration through Novelty
Search, a divergent search algorithm. The second one exploits discovered reward
areas through emitters, i.e. local instances of population-based optimization
algorithms. A meta-scheduler allocates a global computational budget by
alternating between the two processes, ensuring the discovery and efficient
exploitation of disjoint reward areas. SERENE returns both a collection of
diverse solutions covering the search space and a collection of high-performing
solutions for each distinct reward area. We evaluate SERENE on various sparse
reward environments and show it compares favorably to existing baselines.
- Abstract(参考訳): 報酬に基づく最適化アルゴリズムは、パフォーマンスを最大化するために、探索、報酬の発見、搾取の両方を必要とする。
効率的な探索の必要性は、パフォーマンスフィードバックがスパースに与えられるスパースな報酬設定においてさらに重要であるため、検索プロセスを導くのに不適切である。
本研究では,探索空間を効率的に探索できる新奇性とエミッタ(serene)アルゴリズムによるスパース報酬探索と,潜在的に異なる領域に存在する報酬の最適化を提案する。
既存のエミッタベースのアプローチとは対照的に、SERENEは検索空間探索とリワードエクスプロイトを2つの交互プロセスに分離します。
最初のプロセスは、異なる検索アルゴリズムであるNovety Searchを通じて探索を行う。
2つ目は、エミッタ、すなわち、発見された報酬領域を利用する。
集団に基づく最適化アルゴリズムのローカルインスタンス。
メタスケジューラは、2つのプロセス間で交互に計算予算を割り当て、相反する報酬領域の発見と効率的な活用を保証します。
SERENEは、検索空間をカバーする多様なソリューションのコレクションと、異なる報酬領域ごとに高性能なソリューションのコレクションの両方を返します。
各種のスパース報酬環境におけるSERENEの評価を行い,既存のベースラインと比較した。
関連論文リスト
- Searching a High-Performance Feature Extractor for Text Recognition
Network [92.12492627169108]
優れた特徴抽出器を持つための原理を探求し,ドメイン固有の検索空間を設計する。
空間は巨大で複雑な構造であるため、既存のNASアルゴリズムを適用することはできない。
本研究では,空間内を効率的に探索する2段階のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-27T03:49:04Z) - k-Means Maximum Entropy Exploration [55.81894038654918]
余分な報酬を伴う連続空間での探索は、強化学習におけるオープンな問題である。
本研究では, 状態訪問分布のエントロピーに対する近似値の低界化に基づく人工好奇性アルゴリズムを提案する。
提案手法は,高次元連続空間における探索のためのベンチマークにおいて,計算効率と競合性の両方を示す。
論文 参考訳(メタデータ) (2022-05-31T09:05:58Z) - Learning in Sparse Rewards settings through Quality-Diversity algorithms [1.4881159885040784]
この論文は、品質多様性(QD)アルゴリズムによるスパース報酬の問題に焦点を当てている。
論文の最初の部分は、ポリシーの多様性を評価する空間の表現を学ぶことに焦点を当てている。
この論文はSERENEアルゴリズムを導入し、探索空間の興味深い部分に集中する手法である。
論文 参考訳(メタデータ) (2022-03-02T11:02:34Z) - Discovering and Exploiting Sparse Rewards in a Learned Behavior Space [0.46736439782713946]
スパース報酬設定における最適ポリシーの学習は、学習エージェントが行動の質に対するフィードバックをほとんど、あるいは全く持っていないため困難である。
STAXは, 与えられた報酬を効率的に最適化しつつ, 行動空間を学習し, 探索するために設計されたアルゴリズムである。
論文 参考訳(メタデータ) (2021-11-02T22:21:11Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Exploration in two-stage recommender systems [79.50534282841618]
2段階のレコメンデータシステムは、スケーラビリティと保守性のために業界で広く採用されている。
このセットアップの鍵となる課題は、各ステージの最適性能が最適なグローバルパフォーマンスを暗示していないことである。
そこで本研究では,ランクとノミネーター間の探索戦略を同期させる手法を提案する。
論文 参考訳(メタデータ) (2020-09-01T16:52:51Z) - Dynamic Subgoal-based Exploration via Bayesian Optimization [7.297146495243708]
スパース・リワードナビゲーション環境における強化学習は困難であり、効果的な探索の必要性を生じさせる。
本稿では,動的サブゴールに基づく探索手法のクラスを効率的に探索する,費用対効果を考慮したベイズ最適化手法を提案する。
実験により、新しいアプローチは、多くの問題領域で既存のベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2019-10-21T04:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。