論文の概要: On Avoiding Local Minima Using Gradient Descent With Large Learning
Rates
- arxiv url: http://arxiv.org/abs/2205.15142v1
- Date: Mon, 30 May 2022 14:35:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 18:44:27.408894
- Title: On Avoiding Local Minima Using Gradient Descent With Large Learning
Rates
- Title(参考訳): 学習速度が大きくなるグラディエントDescentを用いた局所最小化の検討
- Authors: Amirkeivan Mohtashami, Martin Jaggi, Sebastian Stich
- Abstract要約: 我々は、降下(GD)の成功につながるメカニズムの完全な理解は、明らかに大きなステップサイズを使用することの効果を考慮する必要があるかもしれないと論じる。
ステップサイズが大きいGDは、ステップサイズが小さいGDとは異なる軌道を辿り、世界最小値に収束することを示す。
また,ニューラルネットワークにGDを適用した場合,学習速度が小さい場合と大きい場合のトラジェクトリの違いも示す。
- 参考スコア(独自算出の注目度): 48.42061343682201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been widely observed in training of neural networks that when applying
gradient descent (GD), a large step size is essential for obtaining superior
models. However, the effect of large step sizes on the success of GD is not
well understood theoretically. We argue that a complete understanding of the
mechanics leading to GD's success may indeed require considering effects of
using a large step size. To support this claim, we prove on a certain class of
functions that GD with large step size follows a different trajectory than GD
with a small step size, leading to convergence to the global minimum. We also
demonstrate the difference in trajectories for small and large learning rates
when GD is applied on a neural network, observing effects of an escape from a
local minimum with a large step size, which shows this behavior is indeed
relevant in practice. Finally, through a novel set of experiments, we show even
though stochastic noise is beneficial, it is not enough to explain success of
SGD and a large learning rate is essential for obtaining the best performance
even in stochastic settings.
- Abstract(参考訳): ニューラルネットワークのトレーニングにおいて、勾配降下(GD)を適用する場合、優れたモデルを得るためには大きなステップサイズが不可欠であることが広く観察されている。
しかし、大きなステップサイズがgdの成功に与えた影響は理論的にはよく分かっていない。
我々は、gdの成功に繋がる力学の完全な理解には、大きなステップサイズを使うことの効果を考慮する必要があると論じている。
この主張を支持するために、大きなステップサイズを持つgdが小さなステップサイズを持つgdとは異なる軌道をたどる特定の種類の関数を証明し、大域的最小値に収束する。
また,gdをニューラルネットワークに適用した場合の,小・大学習率のトラジェクタの差異を実証し,局所的最小値からの脱出の効果を大きなステップサイズで観察する。
最後に, 確率的雑音が有益であるにもかかわらず, sgdの成功を説明するには十分ではなく, 確率的環境においても最高の性能を得るためには, 高い学習率が必要となることを示す。
関連論文リスト
- Stochastic Gradient Descent outperforms Gradient Descent in recovering a
high-dimensional signal in a glassy energy landscape [4.73194777046253]
Gradient Descent (SGD) は、ニューラルネットワークのトレーニングに広く使われている平衡外アルゴリズムである。
SGD は GD よりも十分小さいバッチサイズで性能が優れていることを示す。
論文 参考訳(メタデータ) (2023-09-09T13:29:17Z) - The Effect of SGD Batch Size on Autoencoder Learning: Sparsity,
Sharpness, and Feature Learning [14.004531386769328]
単一ニューロンオートエンコーダを用いた場合の勾配降下(SGD)のダイナミクスについて検討する。
サンプル数より小さいバッチサイズの場合、SGDは、そのランダム性にほぼ厳密で疎い、大域的な最小値を見つける。
論文 参考訳(メタデータ) (2023-08-06T21:54:07Z) - Training trajectories, mini-batch losses and the curious role of the
learning rate [13.848916053916618]
検証された勾配勾配勾配は、ディープラーニングのほぼすべての応用において、基本的な役割を担っていることを示す。
本稿では,ミニバッチの勾配と全バッチの関係を解析する簡単なモデルと幾何学的解釈を提案する。
特に、非常に低い損失値は、十分な学習率で1段階の降下に到達することができる。
論文 参考訳(メタデータ) (2023-01-05T21:58:46Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - On-Device Domain Generalization [93.79736882489982]
ドメインの一般化はデバイス上の機械学習アプリケーションにとって重要である。
知識蒸留がこの問題の解決の有力な候補であることがわかった。
本研究では,教師が配布外データをどのように扱えるかを学生に教えることを目的とした,配布外知識蒸留(OKD)という簡単なアイデアを提案する。
論文 参考訳(メタデータ) (2022-09-15T17:59:31Z) - Critical Bach Size Minimizes Stochastic First-Order Oracle Complexity of
Deep Learning Optimizer using Hyperparameters Close to One [0.0]
学習速度が小さいこと,1に近いハイパーパラメータ,大きなバッチサイズが,損失関数を最小化するディープニューラルネットワークのモデルパラメータを見つけることができることを示す。
その結果,Adamは一定の学習率と1に近いハイパーパラメータを用いており,SFOの複雑性を最小化する臨界バッチサイズはモメンタムや勾配勾配よりも早く収束することがわかった。
論文 参考訳(メタデータ) (2022-08-21T06:11:23Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Towards an Efficient and General Framework of Robust Training for Graph
Neural Networks [96.93500886136532]
グラフニューラルネットワーク(GNN)は、いくつかの基本的な推論タスクに大きく進歩している。
GNNの目覚ましい性能にもかかわらず、グラフ構造上の摂動を慎重に作り、誤った予測を下すことが観察されている。
我々は,強靭なGNNを得るために,欲求探索アルゴリズムとゼロ階法を利用する汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-25T15:17:58Z) - A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima [91.11332770406007]
グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。
また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
論文 参考訳(メタデータ) (2020-02-10T02:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。