論文の概要: Quantity vs. Quality: On Hyperparameter Optimization for Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.14604v2
- Date: Thu, 30 Jul 2020 06:16:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 19:26:07.792362
- Title: Quantity vs. Quality: On Hyperparameter Optimization for Deep
Reinforcement Learning
- Title(参考訳): 量対品質:深層強化学習におけるハイパーパラメータ最適化について
- Authors: Lars Hertel, Pierre Baldi, Daniel L. Gillen
- Abstract要約: 強化学習アルゴリズムは、異なるランダムシードによるトレーニング実行間のパフォーマンスの強いばらつきを示すことができる。
我々は、悪いパフォーマーのプルーニングにより、大量のハイパーパラメータ設定を探索するのが良いか、あるいは、繰り返しを用いて収集結果の品質を目標とする方がよいかをベンチマークする。
- 参考スコア(独自算出の注目度): 7.559006677497745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning algorithms can show strong variation in performance
between training runs with different random seeds. In this paper we explore how
this affects hyperparameter optimization when the goal is to find
hyperparameter settings that perform well across random seeds. In particular,
we benchmark whether it is better to explore a large quantity of hyperparameter
settings via pruning of bad performers, or if it is better to aim for quality
of collected results by using repetitions. For this we consider the Successive
Halving, Random Search, and Bayesian Optimization algorithms, the latter two
with and without repetitions. We apply these to tuning the PPO2 algorithm on
the Cartpole balancing task and the Inverted Pendulum Swing-up task. We
demonstrate that pruning may negatively affect the optimization and that
repeated sampling does not help in finding hyperparameter settings that perform
better across random seeds. From our experiments we conclude that Bayesian
optimization with a noise robust acquisition function is the best choice for
hyperparameter optimization in reinforcement learning tasks.
- Abstract(参考訳): 強化学習アルゴリズムは、異なるランダムシードによるトレーニング実行間のパフォーマンスの強いばらつきを示すことができる。
本稿では,無作為種子間でよく機能するハイパーパラメータ設定を見つけることを目的として,ハイパーパラメータ最適化にどのように影響するかを検討する。
特に,不正なパフォーマーのプルーニングを通じて,大量のハイパーパラメータの設定を探索する方がよいのか,あるいは繰り返しを使用して収集した結果の品質を追求する方がよいのかをベンチマークする。
このため、逐次Halving, Random Search, Bayesian Optimizationアルゴリズムについて検討する。
本稿では,PPO2 アルゴリズムを Cartpole バランスタスクと Inverted Pendulum Swing-up タスクにチューニングする。
プルーニングは最適化に悪影響を及ぼす可能性があり、反復サンプリングはランダムな種子をまたいでより良く機能するハイパーパラメータの設定を見つけるのに役立たないことを示した。
その結果,強化学習タスクにおけるハイパーパラメータ最適化には,ノイズロバスト獲得関数を用いたベイズ最適化が最適であることがわかった。
関連論文リスト
- Online Continuous Hyperparameter Optimization for Contextual Bandits [82.18146534971156]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において一貫してより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - Automatic tuning of hyper-parameters of reinforcement learning
algorithms using Bayesian optimization with behavioral cloning [0.0]
強化学習(RL)では、学習エージェントが収集したデータの情報内容は多くのハイパーパラメータの設定に依存する。
本研究では,ベイズ最適化を用いた自律的ハイパーパラメータ設定手法を提案する。
実験は、他の手作業による調整や最適化ベースのアプローチと比較して、有望な結果を示している。
論文 参考訳(メタデータ) (2021-12-15T13:10:44Z) - STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization [74.1615979057429]
本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。
我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
論文 参考訳(メタデータ) (2021-11-01T15:43:36Z) - Automatic prior selection for meta Bayesian optimization with a case
study on tuning deep neural network optimizers [47.013395100497775]
このような高価なハイパーパラメータチューニング問題を効率的に解くための原理的アプローチを提案する。
BOの性能の鍵となるのは関数上の分布を指定および精製することであり、これは基礎となる関数の最適化を推論するために使われる。
我々は、一般的な画像やテキストデータセット上で、最先端に近いモデルの何万もの設定をトレーニングすることで、現実的なモデルトレーニング設定におけるアプローチを検証する。
論文 参考訳(メタデータ) (2021-09-16T20:46:26Z) - Near-Optimal High Probability Complexity Bounds for Non-Smooth
Stochastic Optimization with Heavy-Tailed Noise [63.304196997102494]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
既存の非滑らか凸最適化法は、負のパワーまたは対数的な信頼度に依存する境界の複雑さを持つ。
クリッピングを用いた2つの勾配法に対して, 新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm [97.66038345864095]
ゼロ階超勾配(HOZOG)を用いた新しいハイパーパラメータ最適化法を提案する。
具体的には、A型制約最適化問題として、まずハイパーパラメータ最適化を定式化する。
次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。
論文 参考訳(メタデータ) (2021-02-17T21:03:05Z) - Automatic Setting of DNN Hyper-Parameters by Mixing Bayesian
Optimization and Tuning Rules [0.6875312133832078]
トレーニングおよび検証セット上で,ネットワークの結果を評価し解析するための新しいアルゴリズムを構築した。
我々は、一連のチューニングルールを使用して、新しいハイパーパラメータと/またはハイパーパラメータ検索スペースを減らし、より良い組み合わせを選択する。
論文 参考訳(メタデータ) (2020-06-03T08:53:48Z) - Weighted Random Search for Hyperparameter Optimization [0.0]
本稿では,機械学習アルゴリズムのハイパーパラメータ最適化に使用されるRandom Search(RS)の改良版を紹介する。
我々は、標準RSとは異なり、変化の確率で各ハイパーパラメータに対して新しい値を生成する。
同じ計算予算内で、我々の手法は標準のRSよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2020-04-03T15:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。