論文の概要: A Method for Evaluating Hyperparameter Sensitivity in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.07165v1
- Date: Tue, 10 Dec 2024 03:55:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:38:44.486639
- Title: A Method for Evaluating Hyperparameter Sensitivity in Reinforcement Learning
- Title(参考訳): 強化学習におけるハイパーパラメータ感度の評価法
- Authors: Jacob Adkins, Michael Bowling, Adam White,
- Abstract要約: 本研究は,ハイパーパラメータチューニングに対するアルゴリズム性能の感度を研究,比較,定量化するための新しい経験的手法を提案する。
その結果、アルゴリズムの性能改善は、実際にはハイパーパラメータチューニングへの依存度が増大した結果である可能性が示唆された。
- 参考スコア(独自算出の注目度): 11.929813643723413
- License:
- Abstract: The performance of modern reinforcement learning algorithms critically relies on tuning ever-increasing numbers of hyperparameters. Often, small changes in a hyperparameter can lead to drastic changes in performance, and different environments require very different hyperparameter settings to achieve state-of-the-art performance reported in the literature. We currently lack a scalable and widely accepted approach to characterizing these complex interactions. This work proposes a new empirical methodology for studying, comparing, and quantifying the sensitivity of an algorithm's performance to hyperparameter tuning for a given set of environments. We then demonstrate the utility of this methodology by assessing the hyperparameter sensitivity of several commonly used normalization variants of PPO. The results suggest that several algorithmic performance improvements may, in fact, be a result of an increased reliance on hyperparameter tuning.
- Abstract(参考訳): 現代の強化学習アルゴリズムの性能は、常に増加するハイパーパラメータの数を調整することに依存している。
多くの場合、ハイパーパラメータの小さな変更は、パフォーマンスの劇的な変化をもたらし、文献で報告された最先端のパフォーマンスを達成するために、異なる環境は、非常に異なるハイパーパラメータ設定を必要とする。
現在、これらの複雑な相互作用を特徴づけるスケーラブルで広く受け入れられているアプローチが欠如しています。
本研究では,与えられた環境に対するハイパーパラメータチューニングに対するアルゴリズムの性能の感度を研究・比較・定量化するための新しい経験的手法を提案する。
次に、この手法の有用性を、PPOのいくつかのよく使われる正規化変種(英語版)のハイパーパラメータ感度(英語版)を評価することによって実証する。
その結果、アルゴリズムの性能改善は、実際にはハイパーパラメータチューニングへの依存度が増大した結果である可能性が示唆された。
関連論文リスト
- On the consistency of hyper-parameter selection in value-based deep reinforcement learning [13.133865673667394]
本稿では,値に基づく深層強化学習エージェントのハイパーパラメータ選択の信頼性に着目した実証的研究を行う。
我々の研究は、どのハイパーパラメーターがチューニングに最も重要かを確立するのに役立ち、どのチューニングが異なるトレーニング体制間で一貫性を持ち続けるかを明らかにするのに役立ちます。
論文 参考訳(メタデータ) (2024-06-25T13:06:09Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - Hyperparameter Adaptive Search for Surrogate Optimization: A
Self-Adjusting Approach [1.6317061277457001]
サーロゲート最適化(SO)アルゴリズムは高価なブラックボックス関数の最適化を約束している。
提案手法は,各問題とSOアプローチに特有の最も影響力のあるハイパーパラメータを同定し,修正する。
実験により,様々なSOアルゴリズムの性能向上におけるHASSOの有効性が示された。
論文 参考訳(メタデータ) (2023-10-12T01:26:05Z) - Multi-objective hyperparameter optimization with performance uncertainty [62.997667081978825]
本稿では,機械学習アルゴリズムの評価における不確実性を考慮した多目的ハイパーパラメータ最適化の結果について述べる。
木構造型Parzen Estimator(TPE)のサンプリング戦略と、ガウス過程回帰(GPR)と異種雑音の訓練後に得られたメタモデルを組み合わせる。
3つの解析的テスト関数と3つのML問題の実験結果は、多目的TPEとGPRよりも改善したことを示している。
論文 参考訳(メタデータ) (2022-09-09T14:58:43Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient
Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。
ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-03-15T19:25:01Z) - HyP-ABC: A Novel Automated Hyper-Parameter Tuning Algorithm Using
Evolutionary Optimization [1.6114012813668934]
改良されたミツバチコロニーを用いたハイブリッドハイパーパラメータ最適化アルゴリズムHyP-ABCを提案する。
最先端技術と比較して、HyP-ABCは効率が良く、調整すべきパラメータが限られている。
論文 参考訳(メタデータ) (2021-09-11T16:45:39Z) - Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。
RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。
この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文 参考訳(メタデータ) (2021-02-15T19:36:18Z) - Hyperboost: Hyperparameter Optimization by Gradient Boosting surrogate
models [0.4079265319364249]
現在の最先端の方法は、ランダムフォレストまたはガウスプロセスを利用してサーロゲートモデルを構築しています。
勾配向上に基づく新しいサロゲートモデルを提案する。
実験により,新しい手法は,ある程度の分類問題に対して,最先端技術より優れていることを示す。
論文 参考訳(メタデータ) (2021-01-06T22:07:19Z) - Efficient Hyperparameter Tuning with Dynamic Accuracy Derivative-Free
Optimization [0.27074235008521236]
我々は,最近の動的精度微分自由最適化法をハイパーパラメータチューニングに適用する。
この方法は、収束保証を維持しながら、学習問題の不正確な評価を可能にする。
固定精度アプローチと比較して頑健さと効率性を実証する。
論文 参考訳(メタデータ) (2020-11-06T00:59:51Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。