論文の概要: The Two Regimes of Deep Network Training
- arxiv url: http://arxiv.org/abs/2002.10376v1
- Date: Mon, 24 Feb 2020 17:08:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 03:10:57.886931
- Title: The Two Regimes of Deep Network Training
- Title(参考訳): ディープネットワークトレーニングの2つのレジーム
- Authors: Guillaume Leclerc, Aleksander Madry
- Abstract要約: 本研究では,異なる学習スケジュールの効果と,それらを選択する適切な方法について検討する。
この目的のために、我々は2つの異なる段階を分離し、これを「大きな段階的体制」と「小さな段階的体制」と呼ぶ。
トレーニングアルゴリズムは学習率のスケジュールを大幅に単純化することができる。
- 参考スコア(独自算出の注目度): 93.84309968956941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning rate schedule has a major impact on the performance of deep learning
models. Still, the choice of a schedule is often heuristical. We aim to develop
a precise understanding of the effects of different learning rate schedules and
the appropriate way to select them. To this end, we isolate two distinct phases
of training, the first, which we refer to as the "large-step" regime, exhibits
a rather poor performance from an optimization point of view but is the primary
contributor to model generalization; the latter, "small-step" regime exhibits
much more "convex-like" optimization behavior but used in isolation produces
models that generalize poorly. We find that by treating these regimes
separately-and em specializing our training algorithm to each one of them, we
can significantly simplify learning rate schedules.
- Abstract(参考訳): 学習率のスケジュールは、ディープラーニングモデルのパフォーマンスに大きな影響を与えます。
それでも、スケジュールの選択はしばしばヒューリスティックである。
我々は,異なる学習率スケジュールの効果と,それらを選択する適切な方法を正確に理解することを目的とする。
この目的のために、我々は2つの異なる訓練段階を分離し、第1に「大規模段階」レギュレーションと呼び、最適化の観点からはかなり貧弱な性能を示すが、モデル一般化の主要な要因である。
これらの制度を個別に扱い、トレーニングアルゴリズムをそれぞれに特化することで、学習率のスケジュールを大幅に単純化できることがわかった。
関連論文リスト
- Understanding Optimization in Deep Learning with Central Flows [53.66160508990508]
RMSの暗黙的な振る舞いは、微分方程式の「中央流:」によって明示的に捉えられることを示す。
これらのフローは、汎用ニューラルネットワークの長期最適化軌道を経験的に予測できることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:13Z) - Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Narrowing the Focus: Learned Optimizers for Pretrained Models [24.685918556547055]
本稿では,一連の基本作業タスクによって提供される更新方向の階層固有の線形結合を学習する手法を提案する。
画像上で評価すると、これはAdamのような従来の既成の方法と既存の一般的な学習の両方で著しく優れています。
論文 参考訳(メタデータ) (2024-08-17T23:55:19Z) - EfficientTrain++: Generalized Curriculum Learning for Efficient Visual Backbone Training [79.96741042766524]
訓練カリキュラムをソフトセレクション機能として再構築する。
自然画像の内容の露光は,データ拡張の強度によって容易に達成できることを示す。
結果のメソッドであるEfficientTrain++は単純で汎用的だが驚くほど効果的である。
論文 参考訳(メタデータ) (2024-05-14T17:00:43Z) - Optimal Linear Decay Learning Rate Schedules and Further Refinements [46.79573408189601]
実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。
我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。
論文 参考訳(メタデータ) (2023-10-11T19:16:35Z) - Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-25T21:49:09Z) - Joint Training of Deep Ensembles Fails Due to Learner Collusion [61.557412796012535]
機械学習モデルのアンサンブルは、単一のモデルよりもパフォーマンスを改善する強力な方法として確立されている。
伝統的に、アンサンブルアルゴリズムは、ジョイントパフォーマンスの最適化を目標として、ベースラーナーを独立または逐次訓練する。
アンサンブルの損失を最小化することは、実際にはほとんど適用されないことを示す。
論文 参考訳(メタデータ) (2023-01-26T18:58:07Z) - Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule
towards Flatter Local Minima [40.70374106466073]
LEAP(LEArning Rate Perturbation)と呼ばれる一般学習率スケジュールプラグインを提案する。
LEAPは、学習率に一定の摂動を導入することにより、モデルトレーニングを改善するために、様々な学習率スケジュールに適用することができる。
LEAPを用いたトレーニングにより、多様なデータセット上での様々なディープラーニングモデルの性能を向上させることができることを示す広範な実験を行う。
論文 参考訳(メタデータ) (2022-08-25T05:05:18Z) - Automatic Tuning of Stochastic Gradient Descent with Bayesian
Optimisation [8.340191147575307]
我々は,潜在ガウス過程と自己回帰的定式化に基づく,オプティマイザのトレースに対する元の確率モデルを導入する。
新しい学習率値によって引き起こされる行動の急激な変化に柔軟に調整する。
まず、コールドスタート実行のための学習率のオンライン適応のために、次に、同様のタスクセットのスケジュールを調整し、新しいタスクのためにウォームスタートするために、一連の問題に取り組むのが適しています。
論文 参考訳(メタデータ) (2020-06-25T13:18:18Z) - Auto-Ensemble: An Adaptive Learning Rate Scheduling based Deep Learning
Model Ensembling [11.324407834445422]
本稿では,ディープラーニングモデルのチェックポイントを収集し,それらを自動的にアンサンブルする自動アンサンブル(AE)を提案する。
この手法の利点は、一度のトレーニングで学習率をスケジューリングすることで、モデルを様々な局所最適化に収束させることである。
論文 参考訳(メタデータ) (2020-03-25T08:17:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。