論文の概要: Fine-Tuning Adaptive Stochastic Optimizers: Determining the Optimal Hyperparameter $ε$ via Gradient Magnitude Histogram Analysis
- arxiv url: http://arxiv.org/abs/2311.11532v2
- Date: Sun, 15 Sep 2024 12:55:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 03:27:25.402387
- Title: Fine-Tuning Adaptive Stochastic Optimizers: Determining the Optimal Hyperparameter $ε$ via Gradient Magnitude Histogram Analysis
- Title(参考訳): 微調整適応確率最適化器:勾配マグニチュードヒストグラム解析による最適ハイパーパラメータ$ε$の決定
- Authors: Gustavo Silva, Paul Rodriguez,
- Abstract要約: 我々は、損失の大きさの経験的確率密度関数に基づく新しい枠組みを導入し、これを「緩やかな等級ヒストグラム」と呼ぶ。
そこで本稿では, 最適安全のための精密かつ高精度な探索空間を自動推定するために, 勾配等級ヒストグラムを用いた新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.7366405857677226
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Stochastic optimizers play a crucial role in the successful training of deep neural network models. To achieve optimal model performance, designers must carefully select both model and optimizer hyperparameters. However, this process is frequently demanding in terms of computational resources and processing time. While it is a well-established practice to tune the entire set of optimizer hyperparameters for peak performance, there is still a lack of clarity regarding the individual influence of hyperparameters mislabeled as "low priority", including the safeguard factor $\epsilon$ and decay rate $\beta$, in leading adaptive stochastic optimizers like the Adam optimizer. In this manuscript, we introduce a new framework based on the empirical probability density function of the loss' gradient magnitude, termed as the "gradient magnitude histogram", for a thorough analysis of adaptive stochastic optimizers and the safeguard hyperparameter $\epsilon$. This framework reveals and justifies valuable relationships and dependencies among hyperparameters in connection to optimal performance across diverse tasks, such as classification, language modeling and machine translation. Furthermore, we propose a novel algorithm using gradient magnitude histograms to automatically estimate a refined and accurate search space for the optimal safeguard hyperparameter $\epsilon$, surpassing the conventional trial-and-error methodology by establishing a worst-case search space that is two times narrower.
- Abstract(参考訳): 確率的オプティマイザは、ディープニューラルネットワークモデルのトレーニング成功において重要な役割を果たす。
最適なモデル性能を達成するためには、設計者はモデルパラメータとオプティマイザハイパーパラメータの両方を慎重に選択する必要がある。
しかし、このプロセスは計算資源や処理時間の観点から頻繁に要求される。
ピーク性能のためにオプティマイザ・ハイパーパラメータのセット全体をチューニングすることは、確立された慣行であるが、アダム・オプティマイザのような適応確率最適化の先導において、セーフガード係数$\epsilon$と崩壊率$\beta$を含む、"低優先度"と誤ってラベルされたハイパーパラメータの個々の影響について、明確さの欠如がある。
本稿では,適応確率オプティマイザとセーフガードハイパーパラメータ$\epsilon$の徹底的な解析を行うため,損失勾配等級の経験的確率密度関数を「段階的等級ヒストグラム」と呼ぶ新しいフレームワークを提案する。
このフレームワークは、分類、言語モデリング、機械翻訳といった様々なタスクにおける最適なパフォーマンスに関連して、ハイパーパラメータ間の価値ある関係と依存関係を明らかにし、正当化する。
さらに, 最適セーフガードハイパーパラメータ$\epsilon$に対する精度の高い探索空間を自動的に推定するために, 勾配等級ヒストグラムを用いた新しいアルゴリズムを提案する。
関連論文リスト
- A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Comparative Evaluation of Metaheuristic Algorithms for Hyperparameter
Selection in Short-Term Weather Forecasting [0.0]
本稿では,遺伝的アルゴリズム (GA), 微分進化 (DE), 粒子群最適化 (PSO) のメタヒューリスティックアルゴリズムの適用について検討する。
平均二乗誤差(MSE)や平均絶対パーセンテージ誤差(MAPE)といった指標に基づいて天気予報の性能を評価する。
論文 参考訳(メタデータ) (2023-09-05T22:13:35Z) - Hyper-parameter optimization based on soft actor critic and hierarchical
mixture regularization [5.063728016437489]
我々はマルコフ決定プロセスとしてハイパーパラメータ最適化プロセスをモデル化し、強化学習でそれに取り組む。
ソフトアクター評論家と階層混合正規化に基づく新しいハイパーパラメータ最適化法が提案されている。
論文 参考訳(メタデータ) (2021-12-08T02:34:43Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm [97.66038345864095]
ゼロ階超勾配(HOZOG)を用いた新しいハイパーパラメータ最適化法を提案する。
具体的には、A型制約最適化問題として、まずハイパーパラメータ最適化を定式化する。
次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。
論文 参考訳(メタデータ) (2021-02-17T21:03:05Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Efficient hyperparameter optimization by way of PAC-Bayes bound
minimization [4.191847852775072]
本稿では,期待外誤差に縛られた確率的近似ベイズ(PAC-Bayes)と等価な別の目的について述べる。
そして、この目的を最小化するために、効率的な勾配に基づくアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-08-14T15:54:51Z) - Bayesian Sparse learning with preconditioned stochastic gradient MCMC
and its applications [5.660384137948734]
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束する。
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T20:57:20Z) - Towards Automatic Bayesian Optimization: A first step involving
acquisition functions [0.0]
ベイズ最適化 (Bayesian optimization) は、ブラックボックスの最適化、すなわち解析的表現にアクセスできない関数の最先端技術である。
獲得関数を自動調整するいくつかの手法を探索し,自動ベイズ最適化に対する最初の試みを提案する。
論文 参考訳(メタデータ) (2020-03-21T12:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。