論文の概要: Why Does Multi-Epoch Training Help?
- arxiv url: http://arxiv.org/abs/2105.06015v1
- Date: Thu, 13 May 2021 00:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 00:56:54.848417
- Title: Why Does Multi-Epoch Training Help?
- Title(参考訳): マルチエピックトレーニングはなぜ役に立つのか?
- Authors: Yi Xu, Qi Qian, Hao Li, Rong Jin
- Abstract要約: 経験的に、トレーニングデータ(マルチパスSGD)を1回通過する方が、トレーニングデータ(ワンパスSGD)のみを1回通過するSGDよりもはるかに優れたリスクバウンド性能を有することが観察されている。
本稿では,トレーニングデータの複数パスが,特定の状況下での性能向上に有効である理由を理論的根拠として提示する。
- 参考スコア(独自算出の注目度): 62.946840431501855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic gradient descent (SGD) has become the most attractive optimization
method in training large-scale deep neural networks due to its simplicity, low
computational cost in each updating step, and good performance. Standard excess
risk bounds show that SGD only needs to take one pass over the training data
and more passes could not help to improve the performance. Empirically, it has
been observed that SGD taking more than one pass over the training data
(multi-pass SGD) has much better excess risk bound performance than the SGD
only taking one pass over the training data (one-pass SGD). However, it is not
very clear that how to explain this phenomenon in theory. In this paper, we
provide some theoretical evidences for explaining why multiple passes over the
training data can help improve performance under certain circumstance.
Specifically, we consider smooth risk minimization problems whose objective
function is non-convex least squared loss. Under Polyak-Lojasiewicz (PL)
condition, we establish faster convergence rate of excess risk bound for
multi-pass SGD than that for one-pass SGD.
- Abstract(参考訳): 確率的勾配降下(sgd)は、その単純さ、更新ステップごとの計算コストの低さ、優れた性能により、大規模ディープニューラルネットワークのトレーニングにおいて最も魅力的な最適化手法となっている。
標準的な過剰なリスク境界は、SGDがトレーニングデータに1回のパスしか必要とせず、より多くのパスがパフォーマンス向上に役立たなかったことを示している。
経験的に、SGDがトレーニングデータ(マルチパスSGD)を1回以上通過するのに対し、SGDはトレーニングデータ(ワンパスSGD)を1回のみ通過するのに比べて、過剰なリスクバウンド性能がはるかに優れていることが観察されている。
しかし、この現象を理論でどう説明するかは明らかになっていない。
本稿では,トレーニングデータの複数パスが,ある状況下での性能向上に役立つ理由を理論的に説明する。
具体的には,目的関数が非凸最小二乗損失である滑らかなリスク最小化問題を考える。
polyak-lojasiewicz (pl) 条件下では, 1パスsgdよりも多パスsgdに拘束される過大リスクの収束率が速い。
関連論文リスト
- Non-convergence to global minimizers in data driven supervised deep learning: Adam and stochastic gradient descent optimization provably fail to converge to global minimizers in the training of deep neural networks with ReLU activation [3.6185342807265415]
厳密な理論用語でSGD法の成功と限界を説明することは、研究のオープンな問題である。
本研究では,最適化問題の大域的最小化に収束しない確率の高いSGD手法の大規模なクラスについて検証する。
この研究の一般的な非収束結果は、通常のバニラ標準SGD法だけでなく、多くの加速および適応SGD法にも適用される。
論文 参考訳(メタデータ) (2024-10-14T14:11:37Z) - Implicit Regularization or Implicit Conditioning? Exact Risk
Trajectories of SGD in High Dimensions [26.782342518986503]
勾配降下(SGD)は現代の機械学習の柱であり、様々な問題に対するゴート最適化アルゴリズムとして機能している。
HSGD形式をストリーミングSGDに適合させる方法を示し、ストリーミングSGDと比較してマルチパスSGDの過大なリスクを正確に予測できることを示す。
論文 参考訳(メタデータ) (2022-06-15T02:32:26Z) - Risk Bounds of Multi-Pass SGD for Least Squares in the Interpolation
Regime [127.21287240963859]
勾配降下(SGD)は最適化と一般化の両方において優れた性能を持つため、大きな成功を収めている。
本稿では,マルチパスSGDの一般化を強く特徴付けることを目的とする。
我々は,SGDが同じレベルの過剰リスクを達成するためには,GD以上を必要とするが,勾配評価の回数を削減できることを示した。
論文 参考訳(メタデータ) (2022-03-07T06:34:53Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - SGD: The Role of Implicit Regularization, Batch-size and Multiple-epochs [30.41773138781369]
本稿では,現実に一般的に用いられているグラディエント・ディファイス(SGD)のマルチエポックな変種について述べる。
最悪の場合、これはシングルパスSGDと同程度であることを示す。
SCOの特定の問題に対して、データセットに複数のパスを取ることは、シングルパスSGDを著しく上回る。
論文 参考訳(メタデータ) (2021-07-11T15:50:01Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Variance Reduced Local SGD with Lower Communication Complexity [52.44473777232414]
本稿では,通信の複雑さをさらに軽減するために,分散化ローカルSGDを提案する。
VRL-SGDは、労働者が同一でないデータセットにアクセスしても、通信の複雑さが低い$O(Tfrac12 Nfrac32)$で、エンフラーイテレーションのスピードアップを達成する。
論文 参考訳(メタデータ) (2019-12-30T08:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。