論文の概要: Discovering and Exploiting Sparse Rewards in a Learned Behavior Space
- arxiv url: http://arxiv.org/abs/2111.01919v2
- Date: Tue, 26 Sep 2023 21:42:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 02:08:42.548103
- Title: Discovering and Exploiting Sparse Rewards in a Learned Behavior Space
- Title(参考訳): 学習行動空間におけるスパース報酬の発見と活用
- Authors: Giuseppe Paolo, Miranda Coninx, Alban Laflaqui\`ere, and Stephane
Doncieux
- Abstract要約: スパース報酬設定における最適ポリシーの学習は、学習エージェントが行動の質に対するフィードバックをほとんど、あるいは全く持っていないため困難である。
STAXは, 与えられた報酬を効率的に最適化しつつ, 行動空間を学習し, 探索するために設計されたアルゴリズムである。
- 参考スコア(独自算出の注目度): 0.46736439782713946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning optimal policies in sparse rewards settings is difficult as the
learning agent has little to no feedback on the quality of its actions. In
these situations, a good strategy is to focus on exploration, hopefully leading
to the discovery of a reward signal to improve on. A learning algorithm capable
of dealing with this kind of settings has to be able to (1) explore possible
agent behaviors and (2) exploit any possible discovered reward. Efficient
exploration algorithms have been proposed that require to define a behavior
space, that associates to an agent its resulting behavior in a space that is
known to be worth exploring. The need to define this space is a limitation of
these algorithms. In this work, we introduce STAX, an algorithm designed to
learn a behavior space on-the-fly and to explore it while efficiently
optimizing any reward discovered. It does so by separating the exploration and
learning of the behavior space from the exploitation of the reward through an
alternating two-steps process. In the first step, STAX builds a repertoire of
diverse policies while learning a low-dimensional representation of the
high-dimensional observations generated during the policies evaluation. In the
exploitation step, emitters are used to optimize the performance of the
discovered rewarding solutions. Experiments conducted on three different sparse
reward environments show that STAX performs comparably to existing baselines
while requiring much less prior information about the task as it autonomously
builds the behavior space.
- Abstract(参考訳): スパース報酬設定での最適ポリシーの学習は、学習エージェントがそのアクションの品質に対するフィードバックがほとんどないため、難しい。
これらの状況において、良い戦略は探索に集中することであり、改善のための報酬信号の発見につながることを願っている。
この種の設定を扱うことができる学習アルゴリズムは、(1)エージェントの振る舞いを探索し、(2)発見可能な報酬を活用できる必要がある。
効率的な探索アルゴリズムが提案され、行動空間を定義し、エージェントに関連付け、その結果として生じる振る舞いを探索する価値のある空間に関連付ける。
この空間を定義する必要性は、これらのアルゴリズムの制限である。
本研究では,与えられた報酬を効率的に最適化しつつ,行動空間を学習し,探索するアルゴリズムであるSTAXを紹介する。
それは、行動空間の探索と学習を、報酬の搾取から交互に2段階のプロセスを通して切り離すことによって行われる。
最初のステップでは、STAXは、ポリシー評価中に発生する高次元観測の低次元表現を学習しながら、多様なポリシーのレパートリーを構築する。
搾取ステップでは、エミッタを使用して、検出された報酬ソリューションのパフォーマンスを最適化する。
3つの異なるスパース報酬環境で行われた実験により、STAXは既存のベースラインと相容れない性能を示し、自律的に行動空間を構築する際に、タスクに関する事前情報を要求する。
関連論文リスト
- Boosting Exploration in Actor-Critic Algorithms by Incentivizing
Plausible Novel States [9.210923191081864]
Actor-critic (AC)アルゴリズムは、モデルなしの深層強化学習アルゴリズムのクラスである。
本稿では,国家の新規性の測定に基づく本質的な報酬による探索を促進する新しい手法を提案する。
可塑性新規状態のインセンティブ付き探索により、ACアルゴリズムはサンプル効率を向上し、従って訓練性能を向上させることができる。
論文 参考訳(メタデータ) (2022-10-01T07:07:11Z) - Searching a High-Performance Feature Extractor for Text Recognition
Network [92.12492627169108]
優れた特徴抽出器を持つための原理を探求し,ドメイン固有の検索空間を設計する。
空間は巨大で複雑な構造であるため、既存のNASアルゴリズムを適用することはできない。
本研究では,空間内を効率的に探索する2段階のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-27T03:49:04Z) - Learning in Sparse Rewards settings through Quality-Diversity algorithms [1.4881159885040784]
この論文は、品質多様性(QD)アルゴリズムによるスパース報酬の問題に焦点を当てている。
論文の最初の部分は、ポリシーの多様性を評価する空間の表現を学ぶことに焦点を当てている。
この論文はSERENEアルゴリズムを導入し、探索空間の興味深い部分に集中する手法である。
論文 参考訳(メタデータ) (2022-03-02T11:02:34Z) - Follow your Nose: Using General Value Functions for Directed Exploration
in Reinforcement Learning [5.40729975786985]
本稿では,汎用価値関数(GVF)と有向探索戦略を用いて,探索と補助的タスク学習を組み合わせることを提案する。
3つのナビゲーションタスクにおいて、手作業ではなく選択肢(アクションのシーケンス)を学習し、パフォーマンス上の優位性を実証する簡単な方法を提供する。
論文 参考訳(メタデータ) (2022-03-02T05:14:11Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Sparse Reward Exploration via Novelty Search and Emitters [55.41644538483948]
本稿では,SparsE Reward Exploration via Novelty and Emitters (SERENE)アルゴリズムを提案する。
SERENEは、探索空間の探索と報酬の搾取を2つの交互プロセスに分けている。
メタスケジューラは、2つのプロセス間の交互にグローバルな計算予算を割り当てる。
論文 参考訳(メタデータ) (2021-02-05T12:34:54Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。