論文の概要: Improving Sample Efficiency in Evolutionary RL Using Off-Policy Ranking
- arxiv url: http://arxiv.org/abs/2208.10583v1
- Date: Mon, 22 Aug 2022 20:29:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 12:30:28.406317
- Title: Improving Sample Efficiency in Evolutionary RL Using Off-Policy Ranking
- Title(参考訳): オフポリティランキングを用いた進化的RLのサンプル効率の向上
- Authors: Eshwar S R, Shishir Kolathaya, Gugan Thoppe
- Abstract要約: 進化戦略(Evolution Strategy, ES)は、自然進化の考え方に基づく強力なブラックボックス最適化手法である。
本稿では、フィットネス機能に対する局所近似に基づいて、ランク付けのための新しい非政治的代替案を提案する。
我々は、Augmented Random Search (ARS)と呼ばれる最先端ES手法の文脈で、我々のアイデアを実証する。
- 参考スコア(独自算出の注目度): 2.8176502405615396
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evolution Strategy (ES) is a powerful black-box optimization technique based
on the idea of natural evolution. In each of its iterations, a key step entails
ranking candidate solutions based on some fitness score. For an ES method in
Reinforcement Learning (RL), this ranking step requires evaluating multiple
policies. This is presently done via on-policy approaches: each policy's score
is estimated by interacting several times with the environment using that
policy. This leads to a lot of wasteful interactions since, once the ranking is
done, only the data associated with the top-ranked policies is used for
subsequent learning. To improve sample efficiency, we propose a novel
off-policy alternative for ranking, based on a local approximation for the
fitness function. We demonstrate our idea in the context of a state-of-the-art
ES method called the Augmented Random Search (ARS). Simulations in MuJoCo tasks
show that, compared to the original ARS, our off-policy variant has similar
running times for reaching reward thresholds but needs only around 70% as much
data. It also outperforms the recent Trust Region ES. We believe our ideas
should be extendable to other ES methods as well.
- Abstract(参考訳): evolution strategy (es) は自然進化の概念に基づいた強力なブラックボックス最適化手法である。
それぞれのイテレーションで重要なステップは、フィットネススコアに基づいて候補のソリューションをランク付けすることである。
強化学習(RL)におけるESメソッドの場合、このランキングステップは複数のポリシーを評価する必要がある。
それぞれの政策のスコアは、そのポリシーを使用して環境と何度も対話することによって推定される。
ランク付けが完了すると、トップランクのポリシーに関連するデータだけがその後の学習に使用されるので、これは多くの無駄なやりとりにつながります。
サンプル効率を向上させるために,フィットネス関数の局所近似に基づいて,新しいランク付けのオフポリシー代替案を提案する。
我々は、Augmented Random Search (ARS)と呼ばれる最先端のES手法の文脈で、我々のアイデアを実証する。
mujocoタスクのシミュレーションは、オリジナルのarsと比較して、我々のオフポリティリティの亜種は、報酬しきい値に到達するのに類似した実行時間を持つが、データ量は70%程度しかないことを示している。
また、最近の信頼領域esを上回っている。
私たちのアイデアは、他のESメソッドにも拡張可能であるべきだと考えています。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Pessimistic Off-Policy Optimization for Learning to Rank [13.733459243449634]
オフ政治学習は、ポリシーをデプロイせずに最適化するためのフレームワークである。
レコメンデーションシステムでは、ログデータの不均衡のため、これは特に難しい。
我々は、ランク付け学習のための悲観的非政治最適化について研究する。
論文 参考訳(メタデータ) (2022-06-06T12:58:28Z) - EnTRPO: Trust Region Policy Optimization Method with Entropy
Regularization [1.599072005190786]
信頼地域政策最適化(Trust Region Policy Optimization, TRPO)は、強化学習における政策探索アルゴリズムである。
本研究では、リプレイバッファを用いて、政治以外の学習環境からTRPOに借用する。
TRPO において、時間ステップで蓄積される pi の利点を生かすためにエントロピー正則化項を付加する。
論文 参考訳(メタデータ) (2021-10-26T03:04:00Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with
On-Policy Experience [9.06635747612495]
ソフト・アクター・クリティカル(Soft Actor-Critic, SAC)は、アクター・アクター・アクターの強化学習アルゴリズムである。
SACは、期待されるリターンとエントロピーの間のトレードオフを最大化することでポリシーを訓練する。
一連の連続制御ベンチマークタスクで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-09-24T06:46:28Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z) - Statistical Inference of the Value Function for Reinforcement Learning
in Infinite Horizon Settings [0.0]
我々は、決定ポイントの数が無限大に分散する無限の地平線設定において、ポリシーの値に対する信頼区間(CI)を構築する。
最適方針が一意でない場合でも,提案したCIが名目上のカバレッジを達成することを示す。
提案手法をモバイル健康研究のデータセットに適用し, 強化学習アルゴリズムが患者の健康状態を改善するのに役立つことを確かめた。
論文 参考訳(メタデータ) (2020-01-13T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。