Fugu-MT 論文翻訳(概要): Optimal Linear Decay Learning Rate Schedules and Further Refinements

論文の概要: Optimal Linear Decay Learning Rate Schedules and Further Refinements

arxiv url: http://arxiv.org/abs/2310.07831v2
Date: Tue, 29 Oct 2024 22:57:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:29.535975
Title: Optimal Linear Decay Learning Rate Schedules and Further Refinements
Title（参考訳）: 最適線形減衰率スケジューリングとさらなる改善
Authors: Aaron Defazio, Ashok Cutkosky, Harsh Mehta, Konstantin Mishchenko,
Abstract要約: 実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。
参考スコア（独自算出の注目度）: 46.79573408189601
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning rate schedules used in practice bear little resemblance to those recommended by theory. We close much of this theory/practice gap, and as a consequence are able to derive new problem-adaptive learning rate schedules. Our main technical contribution is a refined analysis of learning rate schedules for a wide class of optimization algorithms (including SGD). When considering only worst-case analysis, our theory predicts that the optimal choice is the linear decay schedule where the step-size is set proportional to 1 - t/T, where t is the current iteration and T is the total number of steps. To go beyond this worst-case analysis, we use the observed gradient norms to derive schedules refined for any particular task. These refined schedules exhibit learning rate warm-up and rapid learning rate annealing near the end of training. Ours is the first systematic approach to automatically yield both of these properties. We perform the most comprehensive evaluation of learning rate schedules to date, evaluating across 10 diverse deep learning problems, a series of LLMs, and a suite of logistic regression problems. We validate that overall, the linear-decay schedule outperforms all commonly used default schedules including cosine annealing. Our adaptive schedule refinement method gives further improvements.
Abstract（参考訳）: 実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。我々の主な技術的貢献は、幅広い最適化アルゴリズム(SGDを含む)の学習率スケジュールの洗練された分析である。最悪のケース解析のみを考慮すると、最適選択は、ステップサイズが 1 - t/T に比例して設定され、t が現在の反復であり、T が全体のステップ数であるような線形減衰スケジュールであると予測する。この最悪のケース分析を超えて、観測された勾配ノルムを用いて、特定のタスクに洗練されたスケジュールを導出する。これらの改良されたスケジュールは、トレーニングの終わり近くで学習率のウォームアップと学習速度の急激な上昇を示す。私たちのアプローチは、これらの特性の両方を自動生成する最初の体系的なアプローチです。これまでに最も包括的な学習スケジュールの評価を行い,10の多様な深層学習問題,一連のLLM,ロジスティック回帰問題に対して評価を行った。全体として、線形デカイスケジュールは、コサインアニールを含む一般的なデフォルトスケジュールよりも優れています。我々の適応型スケジュール改善手法はさらなる改善をもたらす。

関連論文リスト

A Multi-Power Law for Loss Curve Prediction Across Learning Rate Schedules [67.87680482844884]
本稿では,大規模言語モデルの事前学習損失が,学習率の異なるスケジュール下でどのように進展するかを示す経験則を提案する。提案法は,学習率の総和に基づく電力法則と,学習率減衰による損失低減効果を考慮した電力法とを併用した多大電力法である。
論文参考訳（メタデータ） (2025-03-17T04:36:45Z)
The Surprising Agreement Between Convex Optimization Theory and Learning-Rate Scheduling for Large Model Training [55.233765889424035]
本研究では,大規模モデル学習における学習速度のスケジュールが,非滑らかな最適化理論に縛られた凸と驚くほど類似していることを示す。最適学習率で継続トレーニングのスケジュールを延長し、かつ、最適学習率をスケジュール間で転送することにより、124Mと210MのLlama型モデルをトレーニングするための顕著な改善を実現した。
論文参考訳（メタデータ） (2025-01-31T08:55:56Z)
Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文参考訳（メタデータ） (2024-10-29T14:41:44Z)
The Road Less Scheduled [45.01813613035411]
最適化停止ステップTの仕様を必要としない既存の学習率スケジュールは、Tに依存する学習率スケジュールにより大幅に改善される。本稿では,スケジュールを全面的に活用することで,この停止時間を回避するアプローチを提案する。我々のスケジュール自由アプローチは運動量を持つ標準スケジュールに余分なハイパーパラメータを導入しない。
論文参考訳（メタデータ） (2024-05-24T16:20:46Z)
Mechanic: A Learning Rate Tuner [52.4242550204696]
我々は,任意の基本最適化アルゴリズムの学習率尺度係数を調整し,自動的にスケジュールする手法を導入し,それをテクスチャメカニックと呼ぶ。各種バッチサイズ,スケジュール,基本最適化アルゴリズムを用いて,大規模深層学習タスクにおけるテクスチャメカニックを厳格に評価する。
論文参考訳（メタデータ） (2023-05-31T19:32:43Z)
Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule towards Flatter Local Minima [40.70374106466073]
LEAP(LEArning Rate Perturbation)と呼ばれる一般学習率スケジュールプラグインを提案する。 LEAPは、学習率に一定の摂動を導入することにより、モデルトレーニングを改善するために、様々な学習率スケジュールに適用することができる。 LEAPを用いたトレーニングにより、多様なデータセット上での様々なディープラーニングモデルの性能を向上させることができることを示す広範な実験を行う。
論文参考訳（メタデータ） (2022-08-25T05:05:18Z)
Eigencurve: Optimal Learning Rate Schedule for SGD on Quadratic Objectives with Skewed Hessian Spectrums [26.44093918424658]
Eigencurveは、2次目的のSGDの最小収束率(定数まで)を達成することができる学習率スケジュールの最初のファミリーである。実験結果から,Eigencurveは画像分類タスクにおいて,ステップ崩壊を著しく上回り得ることが示された。実用的な応用のための2つの単純な学習率スケジューラは、Eigencurveを近似することができる。
論文参考訳（メタデータ） (2021-10-27T01:17:53Z)
REX: Revisiting Budgeted Training with an Improved Schedule [14.618325490983052]
本稿では,Reflectred Exponential(REX)スケジュールと呼ばれる新しいプロファイルとサンプリングレートの組み合わせを提案する。 REXは、いくつかの最先端の学習率スケジュールのパフォーマンスを一致または超えながら、低予算で線形スケジュールを上回ります。
論文参考訳（メタデータ） (2021-07-09T04:17:35Z)
Training Aware Sigmoidal Optimizer [2.99368851209995]
Aware Sigmoidal関数をトレーニングすると、ローカルミニマよりもはるかにサドルロスの風景が表示されます。本研究では,2相自動学習率スケジュールからなるTASO(Training Aware Sigmoidal Function)を提案する。提案手法をAdam、RMS、Adagradなどの一般的な適応学習率スケジュールと比較した。
論文参考訳（メタデータ） (2021-02-17T12:00:46Z)
Direction Matters: On the Implicit Bias of Stochastic Gradient Descent with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。 SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文参考訳（メタデータ） (2020-11-04T21:07:52Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
The Two Regimes of Deep Network Training [93.84309968956941]
本研究では,異なる学習スケジュールの効果と,それらを選択する適切な方法について検討する。この目的のために、我々は2つの異なる段階を分離し、これを「大きな段階的体制」と「小さな段階的体制」と呼ぶ。トレーニングアルゴリズムは学習率のスケジュールを大幅に単純化することができる。
論文参考訳（メタデータ） (2020-02-24T17:08:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。