論文の概要: Optimization Theory for ReLU Neural Networks Trained with Normalization
Layers
- arxiv url: http://arxiv.org/abs/2006.06878v1
- Date: Thu, 11 Jun 2020 23:55:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 13:23:15.486031
- Title: Optimization Theory for ReLU Neural Networks Trained with Normalization
Layers
- Title(参考訳): 正規化層を用いたReLUニューラルネットワークの最適化理論
- Authors: Yonatan Dukler, Quanquan Gu, Guido Mont\'ufar
- Abstract要約: ディープニューラルネットワークの成功は、部分的には正規化レイヤの使用によるものだ。
我々の分析は、正規化の導入がランドスケープをどのように変化させ、より高速なアクティベーションを実現するかを示している。
- 参考スコア(独自算出の注目度): 82.61117235807606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of deep neural networks is in part due to the use of
normalization layers. Normalization layers like Batch Normalization, Layer
Normalization and Weight Normalization are ubiquitous in practice, as they
improve generalization performance and speed up training significantly.
Nonetheless, the vast majority of current deep learning theory and non-convex
optimization literature focuses on the un-normalized setting, where the
functions under consideration do not exhibit the properties of commonly
normalized neural networks. In this paper, we bridge this gap by giving the
first global convergence result for two-layer neural networks with ReLU
activations trained with a normalization layer, namely Weight Normalization.
Our analysis shows how the introduction of normalization layers changes the
optimization landscape and can enable faster convergence as compared with
un-normalized neural networks.
- Abstract(参考訳): ディープニューラルネットワークの成功の一部は、正規化層の使用によるものである。
バッチ正規化やレイヤ正規化、ウェイト正規化といった正規化レイヤは、一般化性能を向上し、トレーニングを著しく高速化するため、実際にはユビキタスである。
それでも、現在のディープラーニング理論と非凸最適化文学の大部分は、考慮中の関数が一般的な正規化ニューラルネットワークの性質を示さない非正規化設定に焦点を当てている。
本稿では,ReLUアクティベーションを正規化層,すなわち重み正規化でトレーニングした2層ニューラルネットワークに対して,最初の大域収束結果を与えることにより,このギャップを埋める。
本研究では,正規化層の導入によって最適化の景観が変化し,非正規化ニューラルネットワークと比較してより高速に収束できることを示す。
関連論文リスト
- Unsupervised Adaptive Normalization [0.07499722271664146]
Unsupervised Adaptive Normalization (UAN)は、クラスタリングとディープニューラルネットワーク学習をシームレスに統合する革新的なアルゴリズムである。
UANは、対象タスクに適応することで古典的手法よりも優れており、分類やドメイン適応に有効である。
論文 参考訳(メタデータ) (2024-09-07T08:14:11Z) - Towards the Spectral bias Alleviation by Normalizations in Coordinate Networks [20.135740969953723]
近年,座標ネットワークを用いた信号表現が逆問題領域を支配している。
座標ネットワークにはスペクトルバイアスの問題があり、高周波成分の学習能力を制限している。
その結果, この病理分布は古典的正規化法を用いて改善できることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:45:28Z) - Convergence Analysis for Learning Orthonormal Deep Linear Neural
Networks [27.29463801531576]
本稿では,正規直交深部線形ニューラルネットワークの学習のための収束解析について述べる。
その結果、隠れた層の増加が収束速度にどのように影響するかが明らかになった。
論文 参考訳(メタデータ) (2023-11-24T18:46:54Z) - Normalization-Equivariant Neural Networks with Application to Image
Denoising [3.591122855617648]
本稿では,ニューラルネットの正規化-等分散が設計によって成り立つように適応する手法を提案する。
私たちの主張は、通常の畳み込み層だけでなく、すべての活性化関数も、ニューラルネットワークから完全に取り除くべきだということです。
画像復号化実験の結果、正規化等価ニューラルネットワークは、条件付けの改善に加えて、ノイズレベルをまたいだより優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2023-06-08T08:42:08Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Backward Gradient Normalization in Deep Neural Networks [68.8204255655161]
ニューラルネットワークトレーニングにおける勾配正規化のための新しい手法を提案する。
勾配は、ネットワークアーキテクチャ内の特定の点で導入された正規化レイヤを使用して、後方通過中に再スケールされる。
非常に深いニューラルネットワークを用いたテストの結果、新しい手法が勾配ノルムを効果的に制御できることが示されている。
論文 参考訳(メタデータ) (2021-06-17T13:24:43Z) - Normalization Techniques in Training DNNs: Methodology, Analysis and
Application [111.82265258916397]
ディープニューラルネットワーク(DNN)のトレーニングを加速し、一般化を改善するためには、正規化技術が不可欠である
本稿では,トレーニングの文脈における正規化手法の過去,現在,未来に関するレビューとコメントを行う。
論文 参考訳(メタデータ) (2020-09-27T13:06:52Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。