論文の概要: Stochastic Training is Not Necessary for Generalization
- arxiv url: http://arxiv.org/abs/2109.14119v1
- Date: Wed, 29 Sep 2021 00:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 14:38:45.479874
- Title: Stochastic Training is Not Necessary for Generalization
- Title(参考訳): 一般化には確率的訓練は必要ない
- Authors: Jonas Geiping, Micah Goldblum, Phillip E. Pope, Michael Moeller, Tom
Goldstein
- Abstract要約: 勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 57.04880404584737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is widely believed that the implicit regularization of stochastic gradient
descent (SGD) is fundamental to the impressive generalization behavior we
observe in neural networks. In this work, we demonstrate that non-stochastic
full-batch training can achieve strong performance on CIFAR-10 that is on-par
with SGD, using modern architectures in settings with and without data
augmentation. To this end, we utilize modified hyperparameters and show that
the implicit regularization of SGD can be completely replaced with explicit
regularization. This strongly suggests that theories that rely heavily on
properties of stochastic sampling to explain generalization are incomplete, as
strong generalization behavior is still observed in the absence of stochastic
sampling. Fundamentally, deep learning can succeed without stochasticity. Our
observations further indicate that the perceived difficulty of full-batch
training is largely the result of its optimization properties and the
disproportionate time and effort spent by the ML community tuning optimizers
and hyperparameters for small-batch training.
- Abstract(参考訳): 確率勾配降下(SGD)の暗黙的な正則化は、ニューラルネットワークで観察される印象的な一般化行動に基礎があると広く信じられている。
本研究では,sgdとほぼ同等のcifar-10において,データ拡張の有無に関わらず,現代的なアーキテクチャを用いて,非確率的なフルバッチトレーニングによって強力なパフォーマンスを実現することを実証する。
この目的のために,修正ハイパーパラメータを用い,sgdの暗黙的正則化を明示的正則化に完全に置き換えることができることを示す。
このことは、確率的サンプリングの性質に大きく依存して一般化を説明する理論が不完全であることを強く示唆している。
基本的には、深層学習は確率的に成功することができる。
さらに,フルバッチトレーニングの難易度は,その最適化特性と,mlコミュニティが最適化器とハイパーパラメータの調整に費やした不釣り合いな時間と労力の結果であることが示唆された。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - Understanding Why Generalized Reweighting Does Not Improve Over ERM [36.69039005731499]
経験的リスク最小化(ERM)は、実際にはトレーニングとテスト分布が異なる分布シフトに対して非破壊的であることが知られている。
この問題を解決するために、重み付けや分散ロバスト最適化(DRO)の変種などの一連のアプローチが提案されている。
しかし、近年の一連の研究は、分散シフトを伴う実際のアプリケーションにおいて、これらのアプローチはERMよりも大幅に改善していないことを実証的に示している。
論文 参考訳(メタデータ) (2022-01-28T17:58:38Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - On the Generalization of Stochastic Gradient Descent with Momentum [58.900860437254885]
まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。
強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
論文 参考訳(メタデータ) (2021-02-26T18:58:29Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。