論文の概要: Fine-Tuning Adaptive Stochastic Optimizers: Determining the Optimal Hyperparameter $ε$ via Gradient Magnitude Histogram Analysis
- arxiv url: http://arxiv.org/abs/2311.11532v2
- Date: Sun, 15 Sep 2024 12:55:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 03:27:25.402387
- Title: Fine-Tuning Adaptive Stochastic Optimizers: Determining the Optimal Hyperparameter $ε$ via Gradient Magnitude Histogram Analysis
- Title(参考訳): 微調整適応確率最適化器:勾配マグニチュードヒストグラム解析による最適ハイパーパラメータ$ε$の決定
- Authors: Gustavo Silva, Paul Rodriguez,
- Abstract要約: 我々は、損失の大きさの経験的確率密度関数に基づく新しい枠組みを導入し、これを「緩やかな等級ヒストグラム」と呼ぶ。
そこで本稿では, 最適安全のための精密かつ高精度な探索空間を自動推定するために, 勾配等級ヒストグラムを用いた新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.7366405857677226
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Stochastic optimizers play a crucial role in the successful training of deep neural network models. To achieve optimal model performance, designers must carefully select both model and optimizer hyperparameters. However, this process is frequently demanding in terms of computational resources and processing time. While it is a well-established practice to tune the entire set of optimizer hyperparameters for peak performance, there is still a lack of clarity regarding the individual influence of hyperparameters mislabeled as "low priority", including the safeguard factor $\epsilon$ and decay rate $\beta$, in leading adaptive stochastic optimizers like the Adam optimizer. In this manuscript, we introduce a new framework based on the empirical probability density function of the loss' gradient magnitude, termed as the "gradient magnitude histogram", for a thorough analysis of adaptive stochastic optimizers and the safeguard hyperparameter $\epsilon$. This framework reveals and justifies valuable relationships and dependencies among hyperparameters in connection to optimal performance across diverse tasks, such as classification, language modeling and machine translation. Furthermore, we propose a novel algorithm using gradient magnitude histograms to automatically estimate a refined and accurate search space for the optimal safeguard hyperparameter $\epsilon$, surpassing the conventional trial-and-error methodology by establishing a worst-case search space that is two times narrower.
- Abstract(参考訳): 確率的オプティマイザは、ディープニューラルネットワークモデルのトレーニング成功において重要な役割を果たす。
最適なモデル性能を達成するためには、設計者はモデルパラメータとオプティマイザハイパーパラメータの両方を慎重に選択する必要がある。
しかし、このプロセスは計算資源や処理時間の観点から頻繁に要求される。
ピーク性能のためにオプティマイザ・ハイパーパラメータのセット全体をチューニングすることは、確立された慣行であるが、アダム・オプティマイザのような適応確率最適化の先導において、セーフガード係数$\epsilon$と崩壊率$\beta$を含む、"低優先度"と誤ってラベルされたハイパーパラメータの個々の影響について、明確さの欠如がある。
本稿では,適応確率オプティマイザとセーフガードハイパーパラメータ$\epsilon$の徹底的な解析を行うため,損失勾配等級の経験的確率密度関数を「段階的等級ヒストグラム」と呼ぶ新しいフレームワークを提案する。
このフレームワークは、分類、言語モデリング、機械翻訳といった様々なタスクにおける最適なパフォーマンスに関連して、ハイパーパラメータ間の価値ある関係と依存関係を明らかにし、正当化する。
さらに, 最適セーフガードハイパーパラメータ$\epsilon$に対する精度の高い探索空間を自動的に推定するために, 勾配等級ヒストグラムを用いた新しいアルゴリズムを提案する。
関連論文リスト
- Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Towards Stability of Parameter-free Optimization [28.012355508745543]
我々は、新しいパラメータフリー勾配、textscAdamG(黄金のステップサイズを持つアダム)を提案する。
textscAdamGは優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-05-07T14:58:12Z) - MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。
私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。
AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文 参考訳(メタデータ) (2024-01-17T00:16:46Z) - Parameter Optimization with Conscious Allocation (POCA) [4.478575931884855]
ハイパーバンドベースの機械学習アプローチが最も効果的である。
私たちは出席します。
新人
Conscious Allocation (POCA) は、入力を適応的に割り当てるハイパーバンドベースのアルゴリズムである。
ハイパーパラメータの構成に予算を割り当てます
POCAは、両方の設定で強い設定を高速に見つける。
論文 参考訳(メタデータ) (2023-12-29T00:13:55Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Automatic prior selection for meta Bayesian optimization with a case
study on tuning deep neural network optimizers [47.013395100497775]
このような高価なハイパーパラメータチューニング問題を効率的に解くための原理的アプローチを提案する。
BOの性能の鍵となるのは関数上の分布を指定および精製することであり、これは基礎となる関数の最適化を推論するために使われる。
我々は、一般的な画像やテキストデータセット上で、最先端に近いモデルの何万もの設定をトレーニングすることで、現実的なモデルトレーニング設定におけるアプローチを検証する。
論文 参考訳(メタデータ) (2021-09-16T20:46:26Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z) - Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm [97.66038345864095]
ゼロ階超勾配(HOZOG)を用いた新しいハイパーパラメータ最適化法を提案する。
具体的には、A型制約最適化問題として、まずハイパーパラメータ最適化を定式化する。
次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。
論文 参考訳(メタデータ) (2021-02-17T21:03:05Z) - Towards Automatic Bayesian Optimization: A first step involving
acquisition functions [0.0]
ベイズ最適化 (Bayesian optimization) は、ブラックボックスの最適化、すなわち解析的表現にアクセスできない関数の最先端技術である。
獲得関数を自動調整するいくつかの手法を探索し,自動ベイズ最適化に対する最初の試みを提案する。
論文 参考訳(メタデータ) (2020-03-21T12:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。