Fugu-MT 論文翻訳(概要): Training Aware Sigmoidal Optimizer

論文の概要: Training Aware Sigmoidal Optimizer

arxiv url: http://arxiv.org/abs/2102.08716v1
Date: Wed, 17 Feb 2021 12:00:46 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-18 14:35:26.802738
Title: Training Aware Sigmoidal Optimizer
Title（参考訳）: Aware Sigmoidal Optimizerのトレーニング
Authors: David Mac\^edo, Pedro Dreyer, Teresa Ludermir, Cleber Zanchettin
Abstract要約: Aware Sigmoidal関数をトレーニングすると、ローカルミニマよりもはるかにサドルロスの風景が表示されます。本研究では,2相自動学習率スケジュールからなるTASO(Training Aware Sigmoidal Function)を提案する。提案手法をAdam、RMS、Adagradなどの一般的な適応学習率スケジュールと比較した。
参考スコア（独自算出の注目度）: 2.99368851209995
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Proper optimization of deep neural networks is an open research question since an optimal procedure to change the learning rate throughout training is still unknown. Manually defining a learning rate schedule involves troublesome time-consuming try and error procedures to determine hyperparameters such as learning rate decay epochs and learning rate decay rates. Although adaptive learning rate optimizers automatize this process, recent studies suggest they may produce overffiting and reduce performance when compared to fine-tuned learning rate schedules. Considering that deep neural networks loss functions present landscapes with much more saddle points than local minima, we proposed the Training Aware Sigmoidal Optimizer (TASO), which consists of a two-phases automated learning rate schedule. The first phase uses a high learning rate to fast traverse the numerous saddle point, while the second phase uses low learning rate to slowly approach the center of the local minimum previously found. We compared the proposed approach with commonly used adaptive learning rate schedules such as Adam, RMSProp, and Adagrad. Our experiments showed that TASO outperformed all competing methods in both optimal (i.e., performing hyperparameter validation) and suboptimal (i.e., using default hyperparameters) scenarios.
Abstract（参考訳）: 深層ニューラルネットワークの適切な最適化は、トレーニングを通して学習率を変更するための最適な手順がまだ不明であるため、オープンリサーチの問題である。学習率のスケジュールを手動で定義するには、学習率の崩壊や学習率の崩壊率などのハイパーパラメータを決定するために手間のかかる試行錯誤手順が必要です。適応学習率オプティマイザはこのプロセスを自動化するが,近年の研究では,微調整学習率スケジュールと比較して過度な改善と性能低下が示唆されている。深層ニューラルネットワークの損失関数は局所的な最小値よりもはるかにサドルポイントのランドスケープを呈するので,2段階の自動学習率スケジュールからなるTASO(Training Aware Sigmoidal Optimizer)を提案する。第1段階は高学習率を使用して多数のサドルポイントを高速に横断し、第2段階は低学習率を使用して以前に見つかった局所最小点の中心にゆっくりと近づきます。提案手法をAdam、RMSProp、Adagradなどの一般的な適応学習率スケジュールと比較した。我々の実験では、TASOは最適(ハイパーパラメータ検証の実行)と最適(デフォルトハイパーパラメータを使用する)の両方のシナリオですべての競合する手法を上回った。

関連論文リスト

Fast T2T: Optimization Consistency Speeds Up Diffusion-Based Training-to-Testing Solving for Combinatorial Optimization [83.65278205301576]
雑音レベルから与えられたインスタンスの最適解への直接写像を学習し、最小限のショットで高品質な生成を容易にすることを提案する。これは、サンプル間の差を最小限に抑える最適化一貫性トレーニングプロトコルによって達成される。 The Traveling Salesman Problem (TSP) と Maximal Independent Set (MIS) は、ソリューションの品質と効率の両方に関して、Fast T2Tの優位性を実証している。
論文参考訳（メタデータ） (2025-02-05T07:13:43Z)
Understanding Optimization in Deep Learning with Central Flows [53.66160508990508]
RMSの暗黙的な振る舞いは、微分方程式の「中央流:」によって明示的に捉えられることを示す。これらのフローは、汎用ニューラルネットワークの長期最適化軌道を経験的に予測できることを示す。
論文参考訳（メタデータ） (2024-10-31T17:58:13Z)
Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文参考訳（メタデータ） (2024-10-29T14:41:44Z)
Learning Rate Optimization for Deep Neural Networks Using Lipschitz Bandits [9.361762652324968]
適切に調整された学習率によって、より高速なトレーニングとテストの精度が向上する。本稿では,ニューラルネットワークの学習速度を調整するためのLipschitz bandit-drivenアプローチを提案する。
論文参考訳（メタデータ） (2024-09-15T16:21:55Z)
Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文参考訳（メタデータ） (2024-07-01T20:58:01Z)
Learning rate adaptive stochastic gradient descent optimization methods: numerical simulations for deep learning methods for partial differential equations and convergence analyses [5.052293146674794]
標準降下(SGD)最適化法は、学習率が0に収束しない場合、アダムのような加速および適応SGD最適化法が収束しないことが知られている。本研究では,経験的推定に基づいて学習率を調整するSGD最適化手法の学習速度適応手法を提案し,検討する。
論文参考訳（メタデータ） (2024-06-20T14:07:39Z)
Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule towards Flatter Local Minima [40.70374106466073]
LEAP(LEArning Rate Perturbation)と呼ばれる一般学習率スケジュールプラグインを提案する。 LEAPは、学習率に一定の摂動を導入することにより、モデルトレーニングを改善するために、様々な学習率スケジュールに適用することができる。 LEAPを用いたトレーニングにより、多様なデータセット上での様々なディープラーニングモデルの性能を向上させることができることを示す広範な実験を行う。
論文参考訳（メタデータ） (2022-08-25T05:05:18Z)
Meta-Learning with Adaptive Hyperparameters [55.182841228303225]
我々は、MAMLフレームワークの補完的要素、インナーループ最適化(あるいは高速適応)に焦点を当てる。高速適応プロセスを大幅に向上させる新しい重み更新ルールを提案する。
論文参考訳（メタデータ） (2020-10-31T08:05:34Z)
Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。 AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2020-10-21T14:49:00Z)
AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文参考訳（メタデータ） (2020-06-11T16:36:31Z)
Automatic, Dynamic, and Nearly Optimal Learning Rate Specification by Local Quadratic Approximation [7.386152866234369]
ディープラーニングタスクでは、学習率が各イテレーションの更新ステップサイズを決定する。局所二次近似(LQA)に基づく新しい最適化手法を提案する。
論文参考訳（メタデータ） (2020-04-07T10:55:12Z)
Statistical Adaptive Stochastic Gradient Methods [34.859895010071234]
本研究では、勾配法における学習率(ステップサイズ)を自動的にスケジューリングするSALSAと呼ばれる統計的適応手法を提案する。 SALSAはまずスムーズな線探索法を用いて学習率を徐々に増加させ、その後自動的に学習率を低下させる。本発明の学習率低下方法は、一定のステップサイズを使用すると、ステーションスイッチを検出するための新しい統計テストに基づいている。
論文参考訳（メタデータ） (2020-02-25T00:04:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。