Fugu-MT 論文翻訳(概要): When, Why and How Much? Adaptive Learning Rate Scheduling by Refinement

論文の概要: When, Why and How Much? Adaptive Learning Rate Scheduling by Refinement

arxiv url: http://arxiv.org/abs/2310.07831v1
Date: Wed, 11 Oct 2023 19:16:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-14 14:04:08.140695
Title: When, Why and How Much? Adaptive Learning Rate Scheduling by Refinement
Title（参考訳）: いつ、なぜ、そしていくらだ? 改良による適応学習率スケジューリング
Authors: Aaron Defazio and Ashok Cutkosky and Harsh Mehta and Konstantin Mishchenko
Abstract要約: 実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。
参考スコア（独自算出の注目度）: 51.12097770185634
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning rate schedules used in practice bear little resemblance to those recommended by theory. We close much of this theory/practice gap, and as a consequence are able to derive new problem-adaptive learning rate schedules. Our key technical contribution is a refined analysis of learning rate schedules for a wide class of optimization algorithms (including SGD). In contrast to most prior works that study the convergence of the average iterate, we study the last iterate, which is what most people use in practice. When considering only worst-case analysis, our theory predicts that the best choice is the linear decay schedule: a popular choice in practice that sets the stepsize proportionally to $1 - t/T$, where $t$ is the current iteration and $T$ is the total number of steps. To go beyond this worst-case analysis, we use the observed gradient norms to derive schedules refined for any particular task. These refined schedules exhibit learning rate warm-up and rapid learning rate annealing near the end of training. Ours is the first systematic approach to automatically yield both of these properties. We perform the most comprehensive evaluation of learning rate schedules to date, evaluating across 10 diverse deep learning problems, a series of LLMs, and a suite of logistic regression problems. We validate that overall, the linear-decay schedule matches or outperforms all commonly used default schedules including cosine annealing, and that our schedule refinement method gives further improvements.
Abstract（参考訳）: 実際には学習率のスケジュールは理論によって推奨されるものとほとんど似ていない。我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。我々の重要な技術的貢献は、幅広い最適化アルゴリズム(SGDを含む)の学習率スケジュールの洗練された分析である。平均イテレートの収束を研究するほとんどの先行研究とは対照的に、ほとんどの人が実際に使っているのは最後のイテレートである。最低ケース解析のみを考慮すると、我々の理論は、最良の選択は線形減衰スケジュールである、と予測する: 実際には、ステップサイズを1 - t/T$に比例的に設定する一般的な選択であり、$t$は現在の反復であり、$T$はステップの総数である。この最悪のケース分析を超えて、観測された勾配ノルムを用いて、特定のタスクに洗練されたスケジュールを導出する。これらの洗練されたスケジュールは、トレーニング終了近くで学習率ウォームアップと迅速な学習率アニーリングを示す。 oursは、これらのプロパティを自動生成する最初の体系的アプローチです。これまでに最も包括的な学習スケジュールの評価を行い,10の多様な深層学習問題,一連のLLM,ロジスティック回帰問題に対して評価を行った。概して、線形遅延スケジュールは、コサインアニールを含む一般的なデフォルトスケジュールと一致または性能が良く、スケジュール改善手法が更なる改善をもたらすことを検証した。

関連論文リスト

Optimal Growth Schedules for Batch Size and Learning Rate in SGD that Reduce SFO Complexity [0.6906005491572401]
計算勾配法におけるバッチサイズと学習速度のスケジューリングは効率を低下させ、収束を損なう。理論的には,SFOの複雑性を低減させるバッチサイズと学習率の最適な成長スケジュールを導出した。本結果は,ディープラーニングにおける大規模バッチ学習をスケーラブルかつ効率的に行うための理論的知見と実践的ガイドラインの両方を提供する。
論文参考訳（メタデータ） (2025-08-07T11:52:25Z)
A Multi-Power Law for Loss Curve Prediction Across Learning Rate Schedules [67.87680482844884]
本稿では,大規模言語モデルの事前学習損失が,学習率の異なるスケジュール下でどのように進展するかを示す経験則を提案する。提案法は,学習率の総和に基づく電力法則と,学習率減衰による損失低減効果を考慮した電力法とを併用した多大電力法である。
論文参考訳（メタデータ） (2025-03-17T04:36:45Z)
The Surprising Agreement Between Convex Optimization Theory and Learning-Rate Scheduling for Large Model Training [55.233765889424035]
本研究では,大規模モデル学習における学習速度のスケジュールが,非滑らかな最適化理論に縛られた凸と驚くほど類似していることを示す。最適学習率で継続トレーニングのスケジュールを延長し、かつ、最適学習率をスケジュール間で転送することにより、124Mと210MのLlama型モデルをトレーニングするための顕著な改善を実現した。
論文参考訳（メタデータ） (2025-01-31T08:55:56Z)
Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文参考訳（メタデータ） (2024-10-29T14:41:44Z)
The Road Less Scheduled [45.01813613035411]
最適化停止ステップTの仕様を必要としない既存の学習率スケジュールは、Tに依存する学習率スケジュールにより大幅に改善される。本稿では,スケジュールを全面的に活用することで,この停止時間を回避するアプローチを提案する。我々のスケジュール自由アプローチは運動量を持つ標準スケジュールに余分なハイパーパラメータを導入しない。
論文参考訳（メタデータ） (2024-05-24T16:20:46Z)
Mechanic: A Learning Rate Tuner [52.4242550204696]
我々は,任意の基本最適化アルゴリズムの学習率尺度係数を調整し,自動的にスケジュールする手法を導入し,それをテクスチャメカニックと呼ぶ。各種バッチサイズ,スケジュール,基本最適化アルゴリズムを用いて,大規模深層学習タスクにおけるテクスチャメカニックを厳格に評価する。
論文参考訳（メタデータ） (2023-05-31T19:32:43Z)
Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule towards Flatter Local Minima [40.70374106466073]
LEAP(LEArning Rate Perturbation)と呼ばれる一般学習率スケジュールプラグインを提案する。 LEAPは、学習率に一定の摂動を導入することにより、モデルトレーニングを改善するために、様々な学習率スケジュールに適用することができる。 LEAPを用いたトレーニングにより、多様なデータセット上での様々なディープラーニングモデルの性能を向上させることができることを示す広範な実験を行う。
論文参考訳（メタデータ） (2022-08-25T05:05:18Z)
Eigencurve: Optimal Learning Rate Schedule for SGD on Quadratic Objectives with Skewed Hessian Spectrums [26.44093918424658]
Eigencurveは、2次目的のSGDの最小収束率(定数まで)を達成することができる学習率スケジュールの最初のファミリーである。実験結果から,Eigencurveは画像分類タスクにおいて,ステップ崩壊を著しく上回り得ることが示された。実用的な応用のための2つの単純な学習率スケジューラは、Eigencurveを近似することができる。
論文参考訳（メタデータ） (2021-10-27T01:17:53Z)
REX: Revisiting Budgeted Training with an Improved Schedule [14.618325490983052]
本稿では,Reflectred Exponential(REX)スケジュールと呼ばれる新しいプロファイルとサンプリングレートの組み合わせを提案する。 REXは、いくつかの最先端の学習率スケジュールのパフォーマンスを一致または超えながら、低予算で線形スケジュールを上回ります。
論文参考訳（メタデータ） (2021-07-09T04:17:35Z)
Training Aware Sigmoidal Optimizer [2.99368851209995]
Aware Sigmoidal関数をトレーニングすると、ローカルミニマよりもはるかにサドルロスの風景が表示されます。本研究では,2相自動学習率スケジュールからなるTASO(Training Aware Sigmoidal Function)を提案する。提案手法をAdam、RMS、Adagradなどの一般的な適応学習率スケジュールと比較した。
論文参考訳（メタデータ） (2021-02-17T12:00:46Z)
Direction Matters: On the Implicit Bias of Stochastic Gradient Descent with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。 SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文参考訳（メタデータ） (2020-11-04T21:07:52Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
The Two Regimes of Deep Network Training [93.84309968956941]
本研究では,異なる学習スケジュールの効果と,それらを選択する適切な方法について検討する。この目的のために、我々は2つの異なる段階を分離し、これを「大きな段階的体制」と「小さな段階的体制」と呼ぶ。トレーニングアルゴリズムは学習率のスケジュールを大幅に単純化することができる。
論文参考訳（メタデータ） (2020-02-24T17:08:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。