論文の概要: Implicit bias of deep linear networks in the large learning rate phase
- arxiv url: http://arxiv.org/abs/2011.12547v2
- Date: Wed, 16 Dec 2020 13:38:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 02:02:59.248164
- Title: Implicit bias of deep linear networks in the large learning rate phase
- Title(参考訳): 大規模学習率相における深い線形ネットワークの入射バイアス
- Authors: Wei Huang, Weitao Du, Richard Yi Da Xu, and Chunrui Liu
- Abstract要約: 大規模学習率体系におけるロジスティック損失を用いた二項分類のための深い線形ネットワークの暗黙バイアス効果を特徴付ける。
データの分離条件により、勾配降下反復はカタパルト相においてより平坦な最小値に収束すると主張する。
- 参考スコア(独自算出の注目度): 15.846533303963229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most theoretical studies explaining the regularization effect in deep
learning have only focused on gradient descent with a sufficient small learning
rate or even gradient flow (infinitesimal learning rate). Such researches,
however, have neglected a reasonably large learning rate applied in most
practical applications. In this work, we characterize the implicit bias effect
of deep linear networks for binary classification using the logistic loss in
the large learning rate regime, inspired by the seminal work by Lewkowycz et
al. [26] in a regression setting with squared loss. They found a learning rate
regime with a large stepsize named the catapult phase, where the loss grows at
the early stage of training and eventually converges to a minimum that is
flatter than those found in the small learning rate regime. We claim that
depending on the separation conditions of data, the gradient descent iterates
will converge to a flatter minimum in the catapult phase. We rigorously prove
this claim under the assumption of degenerate data by overcoming the difficulty
of the non-constant Hessian of logistic loss and further characterize the
behavior of loss and Hessian for non-separable data. Finally, we demonstrate
that flatter minima in the space spanned by non-separable data along with the
learning rate in the catapult phase can lead to better generalization
empirically.
- Abstract(参考訳): 深層学習における正規化効果を説明する理論研究のほとんどは、十分な学習率や勾配流量(無限の学習率)を持つ勾配降下にのみ焦点をあてている。
しかし、このような研究は、ほとんどの実用的な応用において、かなり大きな学習率を無視している。
本研究では,Lewkowyczらによる基礎研究に触発された大規模学習率体系におけるロジスティック損失を用いて,二項分類のための深い線形ネットワークの暗黙バイアス効果を特徴付ける。
[26]二乗損失のある回帰設定で。
彼らはカタパルトフェーズと呼ばれる大きな段階の学習率の体制を発見し、そこではトレーニングの初期段階で損失が増加し、最終的には小さな学習率の制度よりも平坦な最小限に収束する。
我々は、データの分離条件に応じて、勾配降下イテレートはカタパルト相においてより平坦な最小値に収束すると主張している。
我々は,ロジスティック損失の非定数ヘッシアンの難しさを克服し,非分離データに対する損失とヘッシアンの挙動をさらに特徴付けることにより,データ縮退を前提として,この主張を厳格に証明する。
最後に,非分離データとカタパルト相の学習速度によって空間内の平坦なミニマが,経験的によりよい一般化をもたらすことを示した。
関連論文リスト
- On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Catapult Dynamics and Phase Transitions in Quadratic Nets [10.32543637637479]
カタパルト相は2層モデルと2層同種ニューラルネットを含む多種モデルのモデルに存在することを証明します。
一定範囲の学習率において,損失が大きいと重みノルムが低下することを示す。
また、この理論的に導出された範囲を超えて学習率を実証的に研究し、超臨界学習率で訓練されたReLUネットの活性化マップが、学習率を増加させるにつれて、より疎結合になることを示す。
論文 参考訳(メタデータ) (2023-01-18T19:03:48Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On the Origin of Implicit Regularization in Stochastic Gradient Descent [22.802683068658897]
勾配降下(SGD)は全バッチ損失関数上の勾配流の経路に従う。
ランダムシャッフルを伴うSGDの場合、学習速度が小さく有限であれば、平均SGDは勾配流の経路に近づいたままである。
損失に暗黙の正則化器を明示的に含めれば、学習率が小さい場合にテスト精度が向上することを確認した。
論文 参考訳(メタデータ) (2021-01-28T18:32:14Z) - When does gradient descent with logistic loss find interpolating
two-layer networks? [51.1848572349154]
また,初期損失が十分小さい場合,勾配降下がトレーニング損失をゼロにすることを示した。
データが一定のクラスタと分離条件を満たし、ネットワークが十分に広い場合、勾配降下の一段階が、最初の結果が適用されるほど損失を十分に減少させることを示す。
論文 参考訳(メタデータ) (2020-12-04T05:16:51Z) - Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T23:49:53Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z) - The Implicit Bias of Gradient Descent on Separable Data [44.98410310356165]
予測器は最大マージン(シャープマージンSVM)解の方向へ収束することを示す。
これは、トレーニングエラーがゼロになった後もロジスティックまたはクロスエントロピー損失を最適化し続ける利点を説明するのに役立つ。
論文 参考訳(メタデータ) (2017-10-27T21:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。