論文の概要: Automatic tuning of hyper-parameters of reinforcement learning
algorithms using Bayesian optimization with behavioral cloning
- arxiv url: http://arxiv.org/abs/2112.08094v1
- Date: Wed, 15 Dec 2021 13:10:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 16:31:45.450082
- Title: Automatic tuning of hyper-parameters of reinforcement learning
algorithms using Bayesian optimization with behavioral cloning
- Title(参考訳): 行動クローニングを用いたベイズ最適化による強化学習アルゴリズムのハイパーパラメータの自動チューニング
- Authors: Juan Cruz Barsce, Jorge A. Palombarini, Ernesto C. Mart\'inez
- Abstract要約: 強化学習(RL)では、学習エージェントが収集したデータの情報内容は多くのハイパーパラメータの設定に依存する。
本研究では,ベイズ最適化を用いた自律的ハイパーパラメータ設定手法を提案する。
実験は、他の手作業による調整や最適化ベースのアプローチと比較して、有望な結果を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimal setting of several hyper-parameters in machine learning algorithms is
key to make the most of available data. To this aim, several methods such as
evolutionary strategies, random search, Bayesian optimization and heuristic
rules of thumb have been proposed. In reinforcement learning (RL), the
information content of data gathered by the learning agent while interacting
with its environment is heavily dependent on the setting of many
hyper-parameters. Therefore, the user of an RL algorithm has to rely on
search-based optimization methods, such as grid search or the Nelder-Mead
simplex algorithm, that are very inefficient for most RL tasks, slows down
significantly the learning curve and leaves to the user the burden of
purposefully biasing data gathering. In this work, in order to make an RL
algorithm more user-independent, a novel approach for autonomous
hyper-parameter setting using Bayesian optimization is proposed. Data from past
episodes and different hyper-parameter values are used at a meta-learning level
by performing behavioral cloning which helps improving the effectiveness in
maximizing a reinforcement learning variant of an acquisition function. Also,
by tightly integrating Bayesian optimization in a reinforcement learning agent
design, the number of state transitions needed to converge to the optimal
policy for a given task is reduced. Computational experiments reveal promising
results compared to other manual tweaking and optimization-based approaches
which highlights the benefits of changing the algorithm hyper-parameters to
increase the information content of generated data.
- Abstract(参考訳): 機械学習アルゴリズムにおける複数のハイパーパラメータの最適設定は、利用可能なデータを最大限活用するための鍵となる。
この目的のために、進化戦略、ランダム探索、ベイズ最適化、親指のヒューリスティック規則などのいくつかの手法が提案されている。
強化学習(RL)では、学習エージェントが環境と相互作用しながら収集したデータの情報内容は、多くのハイパーパラメータの設定に大きく依存する。
したがって、RLアルゴリズムのユーザは、グリッド探索やNelder-Mead Simplexアルゴリズムのような、ほとんどのRLタスクにとって非常に非効率な検索ベースの最適化手法に頼る必要があり、学習曲線を著しく遅くし、データ収集を意図的にバイアスする負担をユーザに任せる。
本研究では,RLアルゴリズムをよりユーザに依存しないものにするため,ベイズ最適化を用いた自律型ハイパーパラメータ設定手法を提案する。
獲得関数の強化学習変種を最大化する効果を向上させる行動的クローニングを行うことにより、過去のエピソードと異なるハイパーパラメータ値のデータをメタラーニングレベルで利用する。
また、強化学習エージェント設計においてベイズ最適化を密に統合することにより、与えられたタスクの最適ポリシーに収束するために必要な状態遷移の数を減少させる。
計算実験は、他の手作業による調整や最適化に基づくアプローチと比較して有望な結果を示し、生成されたデータの情報量を増やすためにアルゴリズムのハイパーパラメータを変更することの利点を強調している。
関連論文リスト
- Hyperparameter Optimization for Driving Strategies Based on Reinforcement Learning [1.3654846342364308]
シミュレーション環境でRLエージェントを学習するために,効率的なグローバル最適化アルゴリズムを用いる。
既存の手動チューニングパラメータと比較して、4%の大幅な増加がある。
論文 参考訳(メタデータ) (2024-07-19T12:40:08Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Hyperparameter Adaptive Search for Surrogate Optimization: A
Self-Adjusting Approach [1.6317061277457001]
サーロゲート最適化(SO)アルゴリズムは高価なブラックボックス関数の最適化を約束している。
提案手法は,各問題とSOアプローチに特有の最も影響力のあるハイパーパラメータを同定し,修正する。
実験により,様々なSOアルゴリズムの性能向上におけるHASSOの有効性が示された。
論文 参考訳(メタデータ) (2023-10-12T01:26:05Z) - Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant
Fuel Optimization [0.0]
この研究は、深いRLを用いてロードパターンの問題を解決するための第一種アプローチを示し、任意のエンジニアリング設計最適化に利用することができる。
論文 参考訳(メタデータ) (2023-05-09T23:51:24Z) - Pre-training helps Bayesian optimization too [49.28382118032923]
機能的事前設定のための代替的なプラクティスを模索する。
特に、より厳密な分布を事前訓練できるような、類似した関数のデータを持つシナリオを考察する。
提案手法は, 競合する手法の少なくとも3倍の効率で, 優れたハイパーパラメータを見つけることができることを示す。
論文 参考訳(メタデータ) (2022-07-07T04:42:54Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient
Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。
ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-03-15T19:25:01Z) - Consolidated learning -- a domain-specific model-free optimization
strategy with examples for XGBoost and MIMIC-IV [4.370097023410272]
本稿では,統合学習と呼ばれるチューニング問題の新たな定式化を提案する。
このような設定では、単一のタスクをチューニングするよりも、全体の最適化時間に関心があります。
我々は,XGBoostアルゴリズムの実証研究とMIMIC-IV医療データベースから抽出した予測タスクの収集を通じて,このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-01-27T21:38:53Z) - Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。
RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。
この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文 参考訳(メタデータ) (2021-02-15T19:36:18Z) - Automatic Setting of DNN Hyper-Parameters by Mixing Bayesian
Optimization and Tuning Rules [0.6875312133832078]
トレーニングおよび検証セット上で,ネットワークの結果を評価し解析するための新しいアルゴリズムを構築した。
我々は、一連のチューニングルールを使用して、新しいハイパーパラメータと/またはハイパーパラメータ検索スペースを減らし、より良い組み合わせを選択する。
論文 参考訳(メタデータ) (2020-06-03T08:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。