論文の概要: Learning in Sparse Rewards settings through Quality-Diversity algorithms
- arxiv url: http://arxiv.org/abs/2203.01027v1
- Date: Wed, 2 Mar 2022 11:02:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 14:19:43.414000
- Title: Learning in Sparse Rewards settings through Quality-Diversity algorithms
- Title(参考訳): 品質多様性アルゴリズムによるスパースリワード設定の学習
- Authors: Giuseppe Paolo
- Abstract要約: この論文は、品質多様性(QD)アルゴリズムによるスパース報酬の問題に焦点を当てている。
論文の最初の部分は、ポリシーの多様性を評価する空間の表現を学ぶことに焦点を当てている。
この論文はSERENEアルゴリズムを導入し、探索空間の興味深い部分に集中する手法である。
- 参考スコア(独自算出の注目度): 1.4881159885040784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the Reinforcement Learning (RL) framework, the learning is guided through
a reward signal. This means that in situations of sparse rewards the agent has
to focus on exploration, in order to discover which action, or set of actions
leads to the reward. RL agents usually struggle with this. Exploration is the
focus of Quality-Diversity (QD) methods. In this thesis, we approach the
problem of sparse rewards with these algorithms, and in particular with Novelty
Search (NS). This is a method that only focuses on the diversity of the
possible policies behaviors. The first part of the thesis focuses on learning a
representation of the space in which the diversity of the policies is
evaluated. In this regard, we propose the TAXONS algorithm, a method that
learns a low-dimensional representation of the search space through an
AutoEncoder. While effective, TAXONS still requires information on when to
capture the observation used to learn said space. For this, we study multiple
ways, and in particular the signature transform, to encode information about
the whole trajectory of observations. The thesis continues with the
introduction of the SERENE algorithm, a method that can efficiently focus on
the interesting parts of the search space. This method separates the
exploration of the search space from the exploitation of the reward through a
two-alternating-steps approach. The exploration is performed through NS. Any
discovered reward is then locally exploited through emitters. The third and
final contribution combines TAXONS and SERENE into a single approach: STAX.
Throughout this thesis, we introduce methods that lower the amount of prior
information needed in sparse rewards settings. These contributions are a
promising step towards the development of methods that can autonomously explore
and find high-performance policies in a variety of sparse rewards settings.
- Abstract(参考訳): Reinforcement Learning (RL) フレームワークでは、学習は報酬信号を通じてガイドされる。
これは、スパース報酬の状況において、エージェントは、どのアクションや一連のアクションが報酬につながるかを発見するために、探索に集中しなければならないことを意味する。
RLエージェントは通常これと戦う。
探索は品質多様性(QD)手法の焦点である。
本論文では,これらのアルゴリズム,特にノベルティ探索 (ns) において,分散報酬の問題にアプローチする。
これは、可能なポリシーの振る舞いの多様性にのみ焦点をあてる方法です。
論文の第1部は、政策の多様性が評価される空間の表現を学ぶことに焦点を当てている。
本稿では,オートエンコーダを用いて探索空間の低次元表現を学習するTAXONSアルゴリズムを提案する。
有効ではあるが、TAXONSは、その空間を学習するのに使用される観測をいつ取得するかに関する情報を必要とする。
本研究では,観測の軌跡全体に関する情報を符号化するために,複数の方法,特にシグネチャ変換について検討する。
この論文は、検索空間の興味深い部分に効率的に焦点を合わせる方法であるセレンアルゴリズム(serene algorithm)の導入で続いている。
この手法は,探索空間の探索と2段階のアプローチによる報酬の活用を分離する。
探検はNSを通して行われる。
検出された報酬はエミッタを通じてローカルに悪用される。
3番目のコントリビューションと最後のコントリビューションは、TAXONSとSERENEを1つのアプローチとして組み合わせている。
この論文を通じて,スパース報酬設定に必要な事前情報量を削減する手法を提案する。
これらの貢献は、さまざまなスパースな報酬設定で、自律的にハイパフォーマンスなポリシーを探索し発見できる手法の開発への有望な一歩です。
関連論文リスト
- Exploration in Deep Reinforcement Learning: A Survey [4.066140143829243]
スパース報酬問題の解決には探索技術が重要である。
スパース報酬問題では報酬は稀であり、エージェントがランダムに振る舞うことで報酬を見つけられないことを意味する。
本総説では,既存探査手法の概要について概説する。
論文 参考訳(メタデータ) (2022-05-02T12:03:44Z) - Discovering and Exploiting Sparse Rewards in a Learned Behavior Space [0.46736439782713946]
スパース報酬設定における最適ポリシーの学習は、学習エージェントが行動の質に対するフィードバックをほとんど、あるいは全く持っていないため困難である。
STAXは, 与えられた報酬を効率的に最適化しつつ, 行動空間を学習し, 探索するために設計されたアルゴリズムである。
論文 参考訳(メタデータ) (2021-11-02T22:21:11Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Exploration and Incentives in Reinforcement Learning [107.42240386544633]
各エージェントが同一(ただし未知)のMDPに直面する複雑な探索問題を考察する。
エージェントはポリシーの選択を制御するが、アルゴリズムは推奨事項のみを発行できる。
MDPのすべての到達可能な状態を探索するアルゴリズムを設計します。
論文 参考訳(メタデータ) (2021-02-28T00:15:53Z) - Sparse Reward Exploration via Novelty Search and Emitters [55.41644538483948]
本稿では,SparsE Reward Exploration via Novelty and Emitters (SERENE)アルゴリズムを提案する。
SERENEは、探索空間の探索と報酬の搾取を2つの交互プロセスに分けている。
メタスケジューラは、2つのプロセス間の交互にグローバルな計算予算を割り当てる。
論文 参考訳(メタデータ) (2021-02-05T12:34:54Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。