論文の概要: Online Hyper-parameter Tuning in Off-policy Learning via Evolutionary
Strategies
- arxiv url: http://arxiv.org/abs/2006.07554v1
- Date: Sat, 13 Jun 2020 03:54:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 20:26:01.589364
- Title: Online Hyper-parameter Tuning in Off-policy Learning via Evolutionary
Strategies
- Title(参考訳): 進化戦略によるオフポリシー学習におけるオンラインハイパーパラメータチューニング
- Authors: Yunhao Tang, Krzysztof Choromanski
- Abstract要約: 本稿では,進化的戦略のオンライン・ハイパーパラメータ・チューニングへの応用をオフ政治学習に適用するフレームワークを提案する。
我々の定式化はメタ・グラディエントに密接なつながりを持ち、比較的低次元の探索空間を持つブラックボックス最適化の強みを利用する。
- 参考スコア(独自算出の注目度): 41.13416324282365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy learning algorithms have been known to be sensitive to the choice
of hyper-parameters. However, unlike near on-policy algorithms for which
hyper-parameters could be optimized via e.g. meta-gradients, similar techniques
could not be straightforwardly applied to off-policy learning. In this work, we
propose a framework which entails the application of Evolutionary Strategies to
online hyper-parameter tuning in off-policy learning. Our formulation draws
close connections to meta-gradients and leverages the strengths of black-box
optimization with relatively low-dimensional search spaces. We show that our
method outperforms state-of-the-art off-policy learning baselines with static
hyper-parameters and recent prior work over a wide range of continuous control
benchmarks.
- Abstract(参考訳): オフポリシー学習アルゴリズムはハイパーパラメータの選択に敏感であることが知られている。
しかし、ハイパーパラメータをメタ勾配などによって最適化できる近オンポリシーアルゴリズムとは異なり、同様の手法をオフポリシー学習に直接適用することは不可能である。
本稿では,オフライン学習におけるオンラインハイパーパラメータチューニングへの進化戦略の適用に関するフレームワークを提案する。
この定式化はメタ勾配と密接なつながりを持ち,比較的低次元の探索空間を用いたブラックボックス最適化の強みを生かしている。
提案手法は,静的ハイパーパラメータを用いた最先端のオフポリシー学習ベースラインと,近年の幅広い連続制御ベンチマークにおける先行研究に勝ることを示す。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。
彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。
メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文 参考訳(メタデータ) (2023-06-13T12:58:12Z) - Online Weighted Q-Ensembles for Reduced Hyperparameter Tuning in
Reinforcement Learning [0.38073142980732994]
強化学習はロボット制御を学ぶための有望なパラダイムであり、ダイナミックスモデルを必要とせずに複雑な制御ポリシーを学習することができる。
本稿では,複数の強化学習エージェントのアンサンブルを用いて,それぞれ異なるパラメータの集合と,最適な演奏セットを選択するメカニズムを提案する。
オンライン重み付きQ-アンサンブルは,q平均アンサンブルと比較した場合,全体の低分散と優れた結果を示した。
論文 参考訳(メタデータ) (2022-09-29T19:57:43Z) - A Theoretical Framework of Almost Hyperparameter-free Hyperparameter
Selection Methods for Offline Policy Evaluation [2.741266294612776]
オフライン強化学習(OPE)は、環境シミュレーターを使わずに、データ駆動型決定最適化のための中核技術である。
最適性(選択基準と呼ばれる)の概念を定量的かつ解釈可能な方法で定義するOPEのための近似ハイパーパラメータ選択フレームワークを提案する。
収束率や時間複雑性などの異なる特徴を持つ4つのAHS法を導出する。
論文 参考訳(メタデータ) (2022-01-07T02:23:09Z) - Episodic Policy Gradient Training [43.62408764384791]
エピソード政策グラディエントトレーニング(EPGT)
本稿では, 強調学習アルゴリズムのハイパーパラメータを最適化するために, エピソードメモリを用いたポリシー勾配法のための新しいトレーニング手法を提案する。
連続環境と離散環境の両方における実験結果から,提案手法を用いることにより,様々なポリシー勾配アルゴリズムの性能向上が期待できる。
論文 参考訳(メタデータ) (2021-12-03T11:15:32Z) - Towards Hyperparameter-free Policy Selection for Offline Reinforcement
Learning [10.457660611114457]
オフライン強化学習において、異なるトレーニングアルゴリズムによって生成される価値関数とポリシーの選択方法を示す。
我々は,近年の値関数選択の理論的進歩であるBVFT[XJ21]を用いて,Atariなどの離散作用ベンチマークにおいて,その有効性を示す。
論文 参考訳(メタデータ) (2021-10-26T20:12:11Z) - Online Hyperparameter Meta-Learning with Hypergradient Distillation [59.973770725729636]
勾配に基づくメタラーニング法は、内部最適化に関与しないパラメータのセットを仮定する。
知識蒸留による2次項の近似により,これらの限界を克服できる新しいHO法を提案する。
論文 参考訳(メタデータ) (2021-10-06T05:14:53Z) - Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。
RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。
この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文 参考訳(メタデータ) (2021-02-15T19:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。