論文の概要: Training neural networks faster with minimal tuning using pre-computed lists of hyperparameters for NAdamW
- arxiv url: http://arxiv.org/abs/2503.03986v1
- Date: Thu, 06 Mar 2025 00:14:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:14.106733
- Title: Training neural networks faster with minimal tuning using pre-computed lists of hyperparameters for NAdamW
- Title(参考訳): NAdamW用ハイパーパラメータの事前計算リストを用いた最小チューニングによるニューラルネットワークの高速化
- Authors: Sourabh Medapati, Priya Kasimbeg, Shankar Krishnan, Naman Agarwal, George Dahl,
- Abstract要約: NAdamWのための実用的かつ高性能なハイパーパラメータリストを提示する。
最高のNAdamWハイパーパラメータリストは、構築に使用されていないAlgoPerfのホールドアウトワークロードでうまく機能します。
また、ベーシックな学習率/ウェイト崩壊スイープと、同じ予算に制限された既製のベイズ最適化ツールを上回ります。
- 参考スコア(独自算出の注目度): 11.681640186200951
- License:
- Abstract: If we want to train a neural network using any of the most popular optimization algorithms, we are immediately faced with a dilemma: how to set the various optimization and regularization hyperparameters? When computational resources are abundant, there are a variety of methods for finding good hyperparameter settings, but when resources are limited the only realistic choices are using standard default values of uncertain quality and provenance, or tuning only a couple of the most important hyperparameters via extremely limited handdesigned sweeps. Extending the idea of default settings to a modest tuning budget, Metz et al. (2020) proposed using ordered lists of well-performing hyperparameter settings, derived from a broad hyperparameter search on a large library of training workloads. However, to date, no practical and performant hyperparameter lists that generalize to representative deep learning workloads have been demonstrated. In this paper, we present hyperparameter lists for NAdamW derived from extensive experiments on the realistic workloads in the AlgoPerf: Training Algorithms benchmark. Our hyperparameter lists also include values for basic regularization techniques (i.e. weight decay, label smoothing, and dropout). In particular, our best NAdamW hyperparameter list performs well on AlgoPerf held-out workloads not used to construct it, and represents a compelling turn-key approach to tuning when restricted to five or fewer trials. It also outperforms basic learning rate/weight decay sweeps and an off-the-shelf Bayesian optimization tool when restricted to the same budget.
- Abstract(参考訳): 最も一般的な最適化アルゴリズムを使ってニューラルネットワークをトレーニングしたい場合、すぐにジレンマに直面します。
計算資源が豊富である場合には、優れたハイパーパラメータ設定を見つけるための様々な方法が存在するが、リソースが限られている場合、現実的な選択は、不確実な品質と証明の標準デフォルト値を使用するか、非常に限られた手書きのスイープによって、最も重要なハイパーパラメータのいくつかをチューニングするのみである。
デフォルト設定のアイデアを控えめなチューニング予算に拡張するため、Metzら (2020) は、トレーニングワークロードの大規模なライブラリ上の広範なハイパーパラメータ検索から派生した、高性能なハイパーパラメータ設定の順序リストを使用することを提案した。
しかし、現在まで、ディープラーニングのワークロードを一般化する実用的でパフォーマンスの高いハイパーパラメータリストは示されていない。
本稿では、AlgoPerf: Training Algorithmsベンチマークにおける現実的なワークロードに関する広範な実験から得られたNAdamWのハイパーパラメータリストを示す。
我々のハイパーパラメータリストには、基本的な正規化技術(すなわち、体重減少、ラベルの平滑化、ドロップアウト)の値も含まれている。
特に、最高のNAdamWハイパーパラメータリストは、構築に使用されていないAlgoPerfのホールトアウトワークロードでうまく機能し、5つ以上のトライアルに制限された場合、チューニングに対する魅力的なターンキーアプローチを示しています。
また、ベーシックな学習率/ウェイト崩壊スイープと、同じ予算に制限された既製のベイズ最適化ツールを上回ります。
関連論文リスト
- Parameter Optimization with Conscious Allocation (POCA) [4.478575931884855]
ハイパーバンドベースの機械学習アプローチが最も効果的である。
私たちは出席します。
新人
Conscious Allocation (POCA) は、入力を適応的に割り当てるハイパーバンドベースのアルゴリズムである。
ハイパーパラメータの構成に予算を割り当てます
POCAは、両方の設定で強い設定を高速に見つける。
論文 参考訳(メタデータ) (2023-12-29T00:13:55Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Pre-training helps Bayesian optimization too [49.28382118032923]
機能的事前設定のための代替的なプラクティスを模索する。
特に、より厳密な分布を事前訓練できるような、類似した関数のデータを持つシナリオを考察する。
提案手法は, 競合する手法の少なくとも3倍の効率で, 優れたハイパーパラメータを見つけることができることを示す。
論文 参考訳(メタデータ) (2022-07-07T04:42:54Z) - AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient
Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。
ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-03-15T19:25:01Z) - Scalable One-Pass Optimisation of High-Dimensional Weight-Update
Hyperparameters by Implicit Differentiation [0.0]
近似的過勾配型ハイパーパラメータオプティマイザを開発した。
トレーニングは1回のみであり、再スタートは行わない。
また、真の過次性への収束を動機づける議論も提供する。
論文 参考訳(メタデータ) (2021-10-20T09:57:57Z) - Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm [97.66038345864095]
ゼロ階超勾配(HOZOG)を用いた新しいハイパーパラメータ最適化法を提案する。
具体的には、A型制約最適化問題として、まずハイパーパラメータ最適化を定式化する。
次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。
論文 参考訳(メタデータ) (2021-02-17T21:03:05Z) - How much progress have we made in neural network training? A New
Evaluation Protocol for Benchmarking Optimizers [86.36020260204302]
本稿では、エンドツーエンドの効率とデータ付加訓練の効率を評価するための新しいベンチマークプロトコルを提案する。
評価プロトコルは, ランダム探索よりも, 人間のチューニング行動とよく一致していることを示すために, 人間の実験を行った。
次に,提案したベンチマークフレームワークをコンピュータビジョン,自然言語処理,強化学習,グラフマイニングなどのタスクに適用する。
論文 参考訳(メタデータ) (2020-10-19T21:46:39Z) - Importance of Tuning Hyperparameters of Machine Learning Algorithms [3.4161707164978137]
非劣等性テストとチューニングリスクに基づいて,ハイパーパラメータのチューニングの重要性を判断する手法を提案する。
提案手法をOpenMLの59データセットを用いたベンチマーク研究に適用する。
論文 参考訳(メタデータ) (2020-07-15T10:06:59Z) - Automatic Setting of DNN Hyper-Parameters by Mixing Bayesian
Optimization and Tuning Rules [0.6875312133832078]
トレーニングおよび検証セット上で,ネットワークの結果を評価し解析するための新しいアルゴリズムを構築した。
我々は、一連のチューニングルールを使用して、新しいハイパーパラメータと/またはハイパーパラメータ検索スペースを減らし、より良い組み合わせを選択する。
論文 参考訳(メタデータ) (2020-06-03T08:53:48Z) - Weighted Random Search for CNN Hyperparameter Optimization [0.0]
本稿では、ランダム探索(RS)と確率的欲求を組み合わせた重み付きランダム探索(WRS)手法を提案する。
基準は、ハイパーパラメーター値の試験された組み合わせの同じ数内で達成される分類精度である。
我々の実験によると、WRSアルゴリズムは他の手法よりも優れています。
論文 参考訳(メタデータ) (2020-03-30T09:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。