論文の概要: Batch Normalization Provably Avoids Rank Collapse for Randomly
Initialised Deep Networks
- arxiv url: http://arxiv.org/abs/2003.01652v3
- Date: Thu, 11 Jun 2020 21:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 22:08:50.325410
- Title: Batch Normalization Provably Avoids Rank Collapse for Randomly
Initialised Deep Networks
- Title(参考訳): ランダム初期化深層ネットワークにおけるランク崩壊を回避するバッチ正規化
- Authors: Hadi Daneshmand, Jonas Kohler, Francis Bach, Thomas Hofmann, Aurelien
Lucchi
- Abstract要約: バッチ正規化は線形ネットワークとReLUネットワークの両方のランク崩壊を避ける効果的な戦略である。
我々は、深い線形ネットワークにおいて有意義な下位ランクを導出する。
経験的に、このランクのロバスト性はReLUネットに一般化されることを実証する。
- 参考スコア(独自算出の注目度): 15.499554384036673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Randomly initialized neural networks are known to become harder to train with
increasing depth, unless architectural enhancements like residual connections
and batch normalization are used. We here investigate this phenomenon by
revisiting the connection between random initialization in deep networks and
spectral instabilities in products of random matrices. Given the rich
literature on random matrices, it is not surprising to find that the rank of
the intermediate representations in unnormalized networks collapses quickly
with depth. In this work we highlight the fact that batch normalization is an
effective strategy to avoid rank collapse for both linear and ReLU networks.
Leveraging tools from Markov chain theory, we derive a meaningful lower rank
bound in deep linear networks. Empirically, we also demonstrate that this rank
robustness generalizes to ReLU nets. Finally, we conduct an extensive set of
experiments on real-world data sets, which confirm that rank stability is
indeed a crucial condition for training modern-day deep neural architectures.
- Abstract(参考訳): ランダムに初期化されたニューラルネットワークは、残差接続やバッチ正規化のようなアーキテクチャ拡張が使用されない限り、深さの増大とともにトレーニングが難しくなることが知られている。
本稿では,ディープネットワークにおけるランダム初期化と乱数行列生成物のスペクトル不安定性との関係について再検討する。
ランダム行列に関する豊富な文献を考えると、非正規化ネットワークにおける中間表現のランクが深さで急速に崩壊するのも驚くことではない。
本稿では,線形ネットワークとreluネットワークのランク崩壊を回避するための効果的な戦略としてバッチ正規化を強調する。
マルコフ連鎖理論からツールを利用すると、深い線形ネットワークにおいて有意義な下位ランクが導かれる。
経験的に、この階数はReLUネットに一般化される。
最後に、実世界のデータセットに関する広範囲な実験を行い、ランク安定性が現代のディープニューラルアーキテクチャをトレーニングするための重要な条件であることを確認します。
関連論文リスト
- Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - Path Regularization: A Convexity and Sparsity Inducing Regularization
for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。
我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:00:36Z) - Vanishing Curvature and the Power of Adaptive Methods in Randomly
Initialized Deep Networks [30.467121747150816]
本稿では,ニューラルネットワークの深部で一般的に発生する,いわゆる消滅勾配現象を再考する。
ネットワーク幅が O(depth) 未満のスケールでは, 消失勾配を回避できないことを示す。
論文 参考訳(メタデータ) (2021-06-07T16:29:59Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Gradient Descent for Deep Matrix Factorization: Dynamics and Implicit
Bias towards Low Rank [1.9350867959464846]
ディープラーニングでは、勾配発散は、よく一般化する解を好む傾向にある。
本稿では,線形ネットワークの簡易化における勾配降下のダイナミクスと推定問題について解析する。
論文 参考訳(メタデータ) (2020-11-27T15:08:34Z) - Compressive Sensing and Neural Networks from a Statistical Learning
Perspective [4.561032960211816]
線形測定の少ないスパース再構成に適したニューラルネットワークのクラスに対する一般化誤差解析を提案する。
現実的な条件下では、一般化誤差は層数で対数的にしかスケールせず、測定数ではほとんど線形である。
論文 参考訳(メタデータ) (2020-10-29T15:05:43Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。