論文の概要: Training Aware Sigmoidal Optimizer
- arxiv url: http://arxiv.org/abs/2102.08716v1
- Date: Wed, 17 Feb 2021 12:00:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 14:35:26.802738
- Title: Training Aware Sigmoidal Optimizer
- Title(参考訳): Aware Sigmoidal Optimizerのトレーニング
- Authors: David Mac\^edo, Pedro Dreyer, Teresa Ludermir, Cleber Zanchettin
- Abstract要約: Aware Sigmoidal関数をトレーニングすると、ローカルミニマよりもはるかにサドルロスの風景が表示されます。
本研究では,2相自動学習率スケジュールからなるTASO(Training Aware Sigmoidal Function)を提案する。
提案手法をAdam、RMS、Adagradなどの一般的な適応学習率スケジュールと比較した。
- 参考スコア(独自算出の注目度): 2.99368851209995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proper optimization of deep neural networks is an open research question
since an optimal procedure to change the learning rate throughout training is
still unknown. Manually defining a learning rate schedule involves troublesome
time-consuming try and error procedures to determine hyperparameters such as
learning rate decay epochs and learning rate decay rates. Although adaptive
learning rate optimizers automatize this process, recent studies suggest they
may produce overffiting and reduce performance when compared to fine-tuned
learning rate schedules. Considering that deep neural networks loss functions
present landscapes with much more saddle points than local minima, we proposed
the Training Aware Sigmoidal Optimizer (TASO), which consists of a two-phases
automated learning rate schedule. The first phase uses a high learning rate to
fast traverse the numerous saddle point, while the second phase uses low
learning rate to slowly approach the center of the local minimum previously
found. We compared the proposed approach with commonly used adaptive learning
rate schedules such as Adam, RMSProp, and Adagrad. Our experiments showed that
TASO outperformed all competing methods in both optimal (i.e., performing
hyperparameter validation) and suboptimal (i.e., using default hyperparameters)
scenarios.
- Abstract(参考訳): 深層ニューラルネットワークの適切な最適化は、トレーニングを通して学習率を変更するための最適な手順がまだ不明であるため、オープンリサーチの問題である。
学習率のスケジュールを手動で定義するには、学習率の崩壊や学習率の崩壊率などのハイパーパラメータを決定するために手間のかかる試行錯誤手順が必要です。
適応学習率オプティマイザはこのプロセスを自動化するが,近年の研究では,微調整学習率スケジュールと比較して過度な改善と性能低下が示唆されている。
深層ニューラルネットワークの損失関数は局所的な最小値よりもはるかにサドルポイントのランドスケープを呈するので,2段階の自動学習率スケジュールからなるTASO(Training Aware Sigmoidal Optimizer)を提案する。
第1段階は高学習率を使用して多数のサドルポイントを高速に横断し、第2段階は低学習率を使用して以前に見つかった局所最小点の中心にゆっくりと近づきます。
提案手法をAdam、RMSProp、Adagradなどの一般的な適応学習率スケジュールと比較した。
我々の実験では、TASOは最適(ハイパーパラメータ検証の実行)と最適(デフォルトハイパーパラメータを使用する)の両方のシナリオですべての競合する手法を上回った。
関連論文リスト
- AdaLomo: Low-memory Optimization with Adaptive Learning Rate [63.99489591661645]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - When, Why and How Much? Adaptive Learning Rate Scheduling by Refinement [51.12097770185634]
実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。
我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。
論文 参考訳(メタデータ) (2023-10-11T19:16:35Z) - Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule
towards Flatter Local Minima [40.70374106466073]
LEAP(LEArning Rate Perturbation)と呼ばれる一般学習率スケジュールプラグインを提案する。
LEAPは、学習率に一定の摂動を導入することにより、モデルトレーニングを改善するために、様々な学習率スケジュールに適用することができる。
LEAPを用いたトレーニングにより、多様なデータセット上での様々なディープラーニングモデルの性能を向上させることができることを示す広範な実験を行う。
論文 参考訳(メタデータ) (2022-08-25T05:05:18Z) - Hyper-Learning for Gradient-Based Batch Size Adaptation [2.944323057176686]
バッチサイズをスケジューリングして拡大することは、ディープニューラルネットワークをトレーニングする際のノイズを制御する効果的な戦略である。
学習可能なスケジューリングのためのバッチサイズ適応を行うためのアルゴリズムとしてArbiterを導入する。
いくつかの実験でArbiterの有効性を実証した。
論文 参考訳(メタデータ) (2022-05-17T11:01:14Z) - Meta-Learning with Adaptive Hyperparameters [55.182841228303225]
我々は、MAMLフレームワークの補完的要素、インナーループ最適化(あるいは高速適応)に焦点を当てる。
高速適応プロセスを大幅に向上させる新しい重み更新ルールを提案する。
論文 参考訳(メタデータ) (2020-10-31T08:05:34Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Automatic, Dynamic, and Nearly Optimal Learning Rate Specification by
Local Quadratic Approximation [7.386152866234369]
ディープラーニングタスクでは、学習率が各イテレーションの更新ステップサイズを決定する。
局所二次近似(LQA)に基づく新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2020-04-07T10:55:12Z) - Statistical Adaptive Stochastic Gradient Methods [34.859895010071234]
本研究では、勾配法における学習率(ステップサイズ)を自動的にスケジューリングするSALSAと呼ばれる統計的適応手法を提案する。
SALSAはまずスムーズな線探索法を用いて学習率を徐々に増加させ、その後自動的に学習率を低下させる。
本発明の学習率低下方法は、一定のステップサイズを使用すると、ステーションスイッチを検出するための新しい統計テストに基づいている。
論文 参考訳(メタデータ) (2020-02-25T00:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。