論文の概要: Vanishing Curvature and the Power of Adaptive Methods in Randomly
Initialized Deep Networks
- arxiv url: http://arxiv.org/abs/2106.03763v1
- Date: Mon, 7 Jun 2021 16:29:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 17:47:14.640374
- Title: Vanishing Curvature and the Power of Adaptive Methods in Randomly
Initialized Deep Networks
- Title(参考訳): ランダム初期化深層ネットワークにおける適応手法の減衰曲線とパワー
- Authors: Antonio Orvieto, Jonas Kohler, Dario Pavllo, Thomas Hofmann, Aurelien
Lucchi
- Abstract要約: 本稿では,ニューラルネットワークの深部で一般的に発生する,いわゆる消滅勾配現象を再考する。
ネットワーク幅が O(depth) 未満のスケールでは, 消失勾配を回避できないことを示す。
- 参考スコア(独自算出の注目度): 30.467121747150816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper revisits the so-called vanishing gradient phenomenon, which
commonly occurs in deep randomly initialized neural networks. Leveraging an
in-depth analysis of neural chains, we first show that vanishing gradients
cannot be circumvented when the network width scales with less than O(depth),
even when initialized with the popular Xavier and He initializations. Second,
we extend the analysis to second-order derivatives and show that random i.i.d.
initialization also gives rise to Hessian matrices with eigenspectra that
vanish as networks grow in depth. Whenever this happens, optimizers are
initialized in a very flat, saddle point-like plateau, which is particularly
hard to escape with stochastic gradient descent (SGD) as its escaping time is
inversely related to curvature. We believe that this observation is crucial for
fully understanding (a) historical difficulties of training deep nets with
vanilla SGD, (b) the success of adaptive gradient methods (which naturally
adapt to curvature and thus quickly escape flat plateaus) and (c) the
effectiveness of modern architectural components like residual connections and
normalization layers.
- Abstract(参考訳): 本稿では, ニューラルネットワークにおいて一般的に発生する, いわゆる消滅勾配現象を再考する。
ニューラルネットワークの奥行き解析を利用して、Xavier と He の初期化を初期化しても、ネットワーク幅が O(depth) 未満でスケールしても、消失する勾配を回避できないことを示す。
第二に、解析を二階微分に拡張し、ランダムな i.i.d を示す。
初期化はまた、ネットワークが深く成長するにつれて消滅する固有スペクトルを持つヘッセン行列をもたらす。
これが起こると、オプティマイザは、非常に平坦なサドルポイントのような台地で初期化され、その脱出時間が曲率と逆関係であるため、特に確率勾配降下(sgd)で逃げるのが困難である。
この観察は, (a) バニラsgdを用いた深層網の訓練の歴史的難しさ, (b) 適応勾配法の成功 (自然に曲率に適応し, 平坦な台地から素早く脱出する) および (c) 残留接続や正規化層のような近代的建築要素の有効性を完全に理解する上で重要である。
関連論文リスト
- Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Implicit Sparse Regularization: The Impact of Depth and Early Stopping [35.4113861165802]
勾配降下をスパースモデルに収束させるためには,早期停止が不可欠であることを示す。
我々は, 深さと早期停止の影響を特徴付けるとともに, 一般深度パラメータNに対して, 早期停止による勾配降下が極小最適スパース回復を達成することを示す。
論文 参考訳(メタデータ) (2021-08-12T07:43:29Z) - Continuous vs. Discrete Optimization of Deep Neural Networks [15.508460240818575]
均一な活性化を伴う深層ニューラルネットワーク上では、勾配流軌跡が良好な曲率を享受できることが示される。
この発見により、深い線形ニューラルネットワーク上の勾配流の解析を、勾配勾配が効率的に大域最小限に収束することを保証できる。
我々は、勾配流の理論が深層学習の背後にある謎の解き放つ中心となると仮定する。
論文 参考訳(メタデータ) (2021-07-14T10:59:57Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - On the Implicit Bias of Initialization Shape: Beyond Infinitesimal
Mirror Descent [55.96478231566129]
学習モデルを決定する上で,相対スケールが重要な役割を果たすことを示す。
勾配流の誘導バイアスを導出する手法を開発した。
論文 参考訳(メタデータ) (2021-02-19T07:10:48Z) - Inductive Bias of Gradient Descent for Exponentially Weight Normalized
Smooth Homogeneous Neural Nets [1.7259824817932292]
我々は,指数的あるいはクロスエントロピー損失のトレーニングにおいて,重み付き平滑な均質ニューラルネットの勾配降下の誘導バイアスを解析した。
本稿では,EWNを用いた勾配流路が適応学習率の標準ネットワーク上での勾配流と等価であることを示す。
論文 参考訳(メタデータ) (2020-10-24T14:34:56Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z) - On the Convex Behavior of Deep Neural Networks in Relation to the
Layers' Width [99.24399270311069]
より広いネットワークにおいて、降下最適化による損失を最小限に抑え、トレーニングの開始時と終了時に正の曲率の表面を貫き、その間の曲率をほぼゼロにすることを観察する。
言い換えれば、トレーニングプロセスの重要な部分において、広いネットワークにおけるヘッセンはG成分によって支配されているようである。
論文 参考訳(メタデータ) (2020-01-14T16:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。