論文の概要: Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion
- arxiv url: http://arxiv.org/abs/2310.02012v1
- Date: Tue, 3 Oct 2023 12:35:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 14:17:16.585068
- Title: Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion
- Title(参考訳): 深度制限のないトレーニングに向けて:緩やかな爆発のないバッチ正規化
- Authors: Alexandru Meterez, Amir Joudaki, Francesco Orabona, Alexander Immer,
Gunnar R\"atsch, Hadi Daneshmand
- Abstract要約: バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
- 参考スコア(独自算出の注目度): 83.90492831583997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Normalization layers are one of the key building blocks for deep neural
networks. Several theoretical studies have shown that batch normalization
improves the signal propagation, by avoiding the representations from becoming
collinear across the layers. However, results on mean-field theory of batch
normalization also conclude that this benefit comes at the expense of exploding
gradients in depth. Motivated by these two aspects of batch normalization, in
this study we pose the following question: "Can a batch-normalized network keep
the optimal signal propagation properties, but avoid exploding gradients?" We
answer this question in the affirmative by giving a particular construction of
an Multi-Layer Perceptron (MLP) with linear activations and batch-normalization
that provably has bounded gradients at any depth. Based on Weingarten calculus,
we develop a rigorous and non-asymptotic theory for this constructed MLP that
gives a precise characterization of forward signal propagation, while proving
that gradients remain bounded for linearly independent input samples, which
holds in most practical settings. Inspired by our theory, we also design an
activation shaping scheme that empirically achieves the same properties for
certain non-linear activations.
- Abstract(参考訳): 正規化層は、ディープニューラルネットワークの重要な構成要素の1つである。
いくつかの理論的研究により、バッチ正規化は信号の伝播を改善することが示されている。
しかし、バッチ正規化の平均場理論の結果も、この利点は爆発的な勾配の深さを犠牲にしていると結論付けている。
バッチ正規化の2つの側面に動機づけられた本研究は、「バッチ正規化ネットワークは最適な信号伝搬特性を維持することができるが、勾配の爆発を避けることができるか?
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を任意の深さで有界勾配を持つように構成することで、この疑問を肯定的に解決する。
Weingarten計算に基づいて、この構築されたMLPに対して厳密で非漸近的な理論を構築し、前方信号の伝播を正確に評価すると同時に、勾配が線形独立な入力サンプルに束縛されていることを証明する。
我々の理論に触発されて、ある非線形な活性化に対して同じ特性を経験的に達成する活性化形成スキームも設計する。
関連論文リスト
- Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Taming Gradient Oversmoothing and Expansion in Graph Neural Networks [3.0764244780817283]
オーバースムーシングはグラフニューラルネットワーク(GNN)の主要なボトルネックとして主張されている。
トレーニング中に最適化を防ぐための$textitgradient oversmoothingの存在を示します。
勾配拡大を防止するため, 単純かつ効果的な正規化法を提案する。
論文 参考訳(メタデータ) (2024-10-07T08:22:20Z) - Residual Connections and Normalization Can Provably Prevent Oversmoothing in GNNs [30.003409099607204]
残差接続と正規化層を有する(線形化)グラフニューラルネットワーク(GNN)の形式的かつ正確な特徴付けを提供する。
正規化層の中心となるステップは、メッセージパッシングにおけるグラフ信号を変化させ、関連する情報を抽出しにくくすることを示す。
本稿では,グラフNormv2と呼ばれる新しい正規化レイヤを導入し,その中心となるステップを学習することで,元のグラフ信号を望ましくない方法で歪ませないようにする。
論文 参考訳(メタデータ) (2024-06-05T06:53:16Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Directional convergence and alignment in deep learning [38.73942298289583]
交差エントロピーと関連する分類損失の最小化は無限大であるが, ネットワーク重みは勾配流により方向収束することを示した。
この証明は、ReLU、最大プール、線形および畳み込み層を許容する深い均質ネットワークに対して成り立つ。
論文 参考訳(メタデータ) (2020-06-11T17:50:11Z) - Layer-wise Conditioning Analysis in Exploring the Learning Dynamics of
DNNs [115.35745188028169]
条件付け解析を深層ニューラルネットワーク(DNN)に拡張し,その学習力学を解明する。
バッチ正規化(BN)はトレーニングを安定させるが、時には局所的な最小値の誤った印象を与える。
我々はBNが最適化問題の階層的条件付けを改善することを実験的に観察した。
論文 参考訳(メタデータ) (2020-02-25T11:40:27Z) - On the Principle of Least Symmetry Breaking in Shallow ReLU Models [13.760721677322072]
対象の重みに対する対称性の中期的損失は、より広範囲な設定に適用可能であることを示す。
これを受けて、我々はこの仮説を非等方性非積分布、滑らかな活性化関数、いくつかの層を持つネットワークの異なるクラスに相関させる一連の実験を行った。
論文 参考訳(メタデータ) (2019-12-26T22:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。