論文の概要: Catastrophic Fisher Explosion: Early Phase Fisher Matrix Impacts
Generalization
- arxiv url: http://arxiv.org/abs/2012.14193v1
- Date: Mon, 28 Dec 2020 11:17:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 11:11:02.954559
- Title: Catastrophic Fisher Explosion: Early Phase Fisher Matrix Impacts
Generalization
- Title(参考訳): 壊滅的なフィッシャー爆発:初期フィッシャーマトリックスが一般化に影響を及ぼす
- Authors: Stanislaw Jastrzebski, Devansh Arpit, Oliver Astrand, Giancarlo Kerg,
Huan Wang, Caiming Xiong, Richard Socher, Kyunghyun Cho, Krzysztof Geras
- Abstract要約: 学習開始当初から,勾配降下がフィッシャー情報マトリックスの痕跡を暗黙的にペナルティ化することを示す。
暗黙的あるいは明示的な正規化がない場合、FIMの痕跡は訓練の早い段階で大きな値に増加する可能性があることを強調する。
- 参考スコア(独自算出の注目度): 111.57403811375484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The early phase of training has been shown to be important in two ways for
deep neural networks. First, the degree of regularization in this phase
significantly impacts the final generalization. Second, it is accompanied by a
rapid change in the local loss curvature influenced by regularization choices.
Connecting these two findings, we show that stochastic gradient descent (SGD)
implicitly penalizes the trace of the Fisher Information Matrix (FIM) from the
beginning of training. We argue it is an implicit regularizer in SGD by showing
that explicitly penalizing the trace of the FIM can significantly improve
generalization. We further show that the early value of the trace of the FIM
correlates strongly with the final generalization. We highlight that in the
absence of implicit or explicit regularization, the trace of the FIM can
increase to a large value early in training, to which we refer as catastrophic
Fisher explosion. Finally, to gain insight into the regularization effect of
penalizing the trace of the FIM, we show that 1) it limits memorization by
reducing the learning speed of examples with noisy labels more than that of the
clean examples, and 2) trajectories with a low initial trace of the FIM end in
flat minima, which are commonly associated with good generalization.
- Abstract(参考訳): トレーニングの初期段階は、ディープニューラルネットワークの2つの方法において重要であることが示されている。
まず、この段階における正規化の度合いは最終一般化に大きく影響する。
第二に、正規化選択の影響による局所的損失曲率の急激な変化が伴う。
これら2つの知見を結びつけて,確率勾配降下(SGD)が訓練開始からFIM(Fiher Information Matrix)の痕跡を暗黙的に遡上することを示した。
sgd における暗黙の正規化であり、fim のトレースを明示的にペナルティ化することで一般化を大幅に改善できることを示す。
さらに、FIMのトレースの初期値は、最終一般化と強く相関していることを示す。
暗黙的あるいは明示的な正則化がない場合、FIMの痕跡は訓練の早い段階で大きな値に増大し、これは破滅的なフィッシャー爆発である。
最後に, FIMのトレースをペナライズする正規化効果について考察するため, 1) クリーンなサンプルよりもノイズの多いラベルを持つサンプルの学習速度を減らし, メモリ化を制限すること, 2) 平坦なミニマにおいてFIMのエンドの初期トレースが低いトラジェクトリについて考察した。
関連論文リスト
- Early Period of Training Impacts Out-of-Distribution Generalization [56.283944756315066]
ニューラルネットワークトレーニングの初期における学習力学とOOD一般化の関係について検討した。
トレーニング中に異なる時間にトレーニング可能なパラメータ数を選択することは、ID結果に極端に影響を及ぼすことを示す。
訓練初期におけるシャープネスの絶対値とフィッシャー情報の痕跡は,OOD一般化の指標にはならない。
論文 参考訳(メタデータ) (2024-03-22T13:52:53Z) - Vanishing Curvature and the Power of Adaptive Methods in Randomly
Initialized Deep Networks [30.467121747150816]
本稿では,ニューラルネットワークの深部で一般的に発生する,いわゆる消滅勾配現象を再考する。
ネットワーク幅が O(depth) 未満のスケールでは, 消失勾配を回避できないことを示す。
論文 参考訳(メタデータ) (2021-06-07T16:29:59Z) - Implicit bias of deep linear networks in the large learning rate phase [15.846533303963229]
大規模学習率体系におけるロジスティック損失を用いた二項分類のための深い線形ネットワークの暗黙バイアス効果を特徴付ける。
データの分離条件により、勾配降下反復はカタパルト相においてより平坦な最小値に収束すると主張する。
論文 参考訳(メタデータ) (2020-11-25T06:50:30Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。