Fugu-MT 論文翻訳(概要): Quantity vs. Quality: On Hyperparameter Optimization for Deep Reinforcement Learning

論文の概要: Quantity vs. Quality: On Hyperparameter Optimization for Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2007.14604v2
Date: Thu, 30 Jul 2020 06:16:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-05 19:26:07.792362
Title: Quantity vs. Quality: On Hyperparameter Optimization for Deep Reinforcement Learning
Title（参考訳）: 量対品質:深層強化学習におけるハイパーパラメータ最適化について
Authors: Lars Hertel, Pierre Baldi, Daniel L. Gillen
Abstract要約: 強化学習アルゴリズムは、異なるランダムシードによるトレーニング実行間のパフォーマンスの強いばらつきを示すことができる。我々は、悪いパフォーマーのプルーニングにより、大量のハイパーパラメータ設定を探索するのが良いか、あるいは、繰り返しを用いて収集結果の品質を目標とする方がよいかをベンチマークする。
参考スコア（独自算出の注目度）: 7.559006677497745
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning algorithms can show strong variation in performance between training runs with different random seeds. In this paper we explore how this affects hyperparameter optimization when the goal is to find hyperparameter settings that perform well across random seeds. In particular, we benchmark whether it is better to explore a large quantity of hyperparameter settings via pruning of bad performers, or if it is better to aim for quality of collected results by using repetitions. For this we consider the Successive Halving, Random Search, and Bayesian Optimization algorithms, the latter two with and without repetitions. We apply these to tuning the PPO2 algorithm on the Cartpole balancing task and the Inverted Pendulum Swing-up task. We demonstrate that pruning may negatively affect the optimization and that repeated sampling does not help in finding hyperparameter settings that perform better across random seeds. From our experiments we conclude that Bayesian optimization with a noise robust acquisition function is the best choice for hyperparameter optimization in reinforcement learning tasks.
Abstract（参考訳）: 強化学習アルゴリズムは、異なるランダムシードによるトレーニング実行間のパフォーマンスの強いばらつきを示すことができる。本稿では,無作為種子間でよく機能するハイパーパラメータ設定を見つけることを目的として,ハイパーパラメータ最適化にどのように影響するかを検討する。特に,不正なパフォーマーのプルーニングを通じて,大量のハイパーパラメータの設定を探索する方がよいのか,あるいは繰り返しを使用して収集した結果の品質を追求する方がよいのかをベンチマークする。このため、逐次Halving, Random Search, Bayesian Optimizationアルゴリズムについて検討する。本稿では,PPO2 アルゴリズムを Cartpole バランスタスクと Inverted Pendulum Swing-up タスクにチューニングする。プルーニングは最適化に悪影響を及ぼす可能性があり、反復サンプリングはランダムな種子をまたいでより良く機能するハイパーパラメータの設定を見つけるのに役立たないことを示した。その結果,強化学習タスクにおけるハイパーパラメータ最適化には,ノイズロバスト獲得関数を用いたベイズ最適化が最適であることがわかった。

関連論文リスト

Combining Automated Optimisation of Hyperparameters and Reward Shape [7.407166175374958]
本稿では,ハイパーパラメータと報酬関数を組み合わせた最適化手法を提案する。近似ポリシー最適化とソフト・アクター・クリティカルを用いた広範囲な実験を行った。以上の結果から,統合最適化は環境の半分のベースライン性能よりも有意に向上し,他の環境との競争性能も向上することが示された。
論文参考訳（メタデータ） (2024-06-26T12:23:54Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2023-02-18T23:31:20Z)
Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文参考訳（メタデータ） (2022-05-26T12:51:32Z)
Automatic tuning of hyper-parameters of reinforcement learning algorithms using Bayesian optimization with behavioral cloning [0.0]
強化学習(RL)では、学習エージェントが収集したデータの情報内容は多くのハイパーパラメータの設定に依存する。本研究では,ベイズ最適化を用いた自律的ハイパーパラメータ設定手法を提案する。実験は、他の手作業による調整や最適化ベースのアプローチと比較して、有望な結果を示している。
論文参考訳（メタデータ） (2021-12-15T13:10:44Z)
STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization [74.1615979057429]
本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
論文参考訳（メタデータ） (2021-11-01T15:43:36Z)
Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm [97.66038345864095]
ゼロ階超勾配(HOZOG)を用いた新しいハイパーパラメータ最適化法を提案する。具体的には、A型制約最適化問題として、まずハイパーパラメータ最適化を定式化する。次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。
論文参考訳（メタデータ） (2021-02-17T21:03:05Z)
Self-Tuning Stochastic Optimization with Curvature-Aware Gradient Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。モデルに基づく手続きが雑音勾配設定に収束することを証明する。これは自己チューニング二次体を構築するための興味深いステップである。
論文参考訳（メタデータ） (2020-11-09T22:07:30Z)
Automatic Setting of DNN Hyper-Parameters by Mixing Bayesian Optimization and Tuning Rules [0.6875312133832078]
トレーニングおよび検証セット上で,ネットワークの結果を評価し解析するための新しいアルゴリズムを構築した。我々は、一連のチューニングルールを使用して、新しいハイパーパラメータと/またはハイパーパラメータ検索スペースを減らし、より良い組み合わせを選択する。
論文参考訳（メタデータ） (2020-06-03T08:53:48Z)
Weighted Random Search for Hyperparameter Optimization [0.0]
本稿では,機械学習アルゴリズムのハイパーパラメータ最適化に使用されるRandom Search(RS)の改良版を紹介する。我々は、標準RSとは異なり、変化の確率で各ハイパーパラメータに対して新しい値を生成する。同じ計算予算内で、我々の手法は標準のRSよりも優れた結果が得られる。
論文参考訳（メタデータ） (2020-04-03T15:41:22Z)
Towards Automatic Bayesian Optimization: A first step involving acquisition functions [0.0]
ベイズ最適化 (Bayesian optimization) は、ブラックボックスの最適化、すなわち解析的表現にアクセスできない関数の最先端技術である。獲得関数を自動調整するいくつかの手法を探索し,自動ベイズ最適化に対する最初の試みを提案する。
論文参考訳（メタデータ） (2020-03-21T12:22:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。