論文の概要: Training Deep Neural Networks Without Batch Normalization
- arxiv url: http://arxiv.org/abs/2008.07970v1
- Date: Tue, 18 Aug 2020 15:04:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 20:55:38.161005
- Title: Training Deep Neural Networks Without Batch Normalization
- Title(参考訳): バッチ正規化のないディープニューラルネットワークのトレーニング
- Authors: Divya Gaur, Joachim Folz, and Andreas Dengel
- Abstract要約: この研究はバッチ正規化を詳細に研究し、重量正規化、勾配クリッピング、ドロップアウトといった他の手法と比較する。
この研究の主な目的は、トレーニングプロセスの適応によってバッチ正規化が除去された場合、ネットワークを効果的にトレーニングできるかどうかを判断することである。
- 参考スコア(独自算出の注目度): 4.266320191208303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training neural networks is an optimization problem, and finding a decent set
of parameters through gradient descent can be a difficult task. A host of
techniques has been developed to aid this process before and during the
training phase. One of the most important and widely used class of method is
normalization. It is generally favorable for neurons to receive inputs that are
distributed with zero mean and unit variance, so we use statistics about
dataset to normalize them before the first layer. However, this property cannot
be guaranteed for the intermediate activations inside the network. A widely
used method to enforce this property inside the network is batch normalization.
It was developed to combat covariate shift inside networks. Empirically it is
known to work, but there is a lack of theoretical understanding about its
effectiveness and potential drawbacks it might have when used in practice. This
work studies batch normalization in detail, while comparing it with other
methods such as weight normalization, gradient clipping and dropout. The main
purpose of this work is to determine if it is possible to train networks
effectively when batch normalization is removed through adaption of the
training process.
- Abstract(参考訳): ニューラルネットワークのトレーニングは最適化の問題であり、勾配降下を通じて適切なパラメータセットを見つけることは難しい課題である。
トレーニング期間中にこのプロセスを支援するために、数多くの技術が開発されている。
最も重要で広く使われている方法の1つは正規化である。
一般に、ニューロンが平均と単位分散で分布する入力を受け取ることは好ましいので、最初の層の前にデータセットに関する統計を使って正規化します。
しかし、この特性はネットワーク内の中間活性化に対して保証できない。
この特性をネットワーク内で強制するために広く使われる方法はバッチ正規化である。
ネットワーク内の共変量シフトと戦うために開発された。
実証的には機能することが知られているが、その効果と実際に使用する際の潜在的な欠点についての理論的理解が欠如している。
本研究は,重み正規化,勾配クリッピング,ドロップアウトなどの他の手法と比較しながら,バッチ正規化を詳細に研究する。
この研究の主な目的は、トレーニングプロセスの適応によってバッチ正規化が除去された場合、ネットワークを効果的にトレーニングできるかどうかを決定することである。
関連論文リスト
- Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Training Thinner and Deeper Neural Networks: Jumpstart Regularization [2.8348950186890467]
我々は、神経細胞が死滅したり線状になるのを防ぐために正規化を使用します。
従来のトレーニングと比較して、より薄く、より深く、そして(最も重要な)よりパラメータ効率の高いニューラルネットワークが得られます。
論文 参考訳(メタデータ) (2022-01-30T12:11:24Z) - Compare Where It Matters: Using Layer-Wise Regularization To Improve
Federated Learning on Heterogeneous Data [0.0]
フェデレートラーニング(Federated Learning)は、分散データ上でニューラルネットワークをトレーニングする方法として広く採用されている。
主な制限は、データが均一に分散されたときに発生するパフォーマンス劣化である。
本稿では,様々なディープラーニングタスクにおいて,従来の最先端手法よりも優れたパフォーマンスを実現するフレームワークであるFedCKAを紹介する。
論文 参考訳(メタデータ) (2021-12-01T10:46:13Z) - Distribution Mismatch Correction for Improved Robustness in Deep Neural
Networks [86.42889611784855]
正規化法は ノイズや入力の腐敗に関して 脆弱性を増大させる
本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。
実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文 参考訳(メタデータ) (2021-10-05T11:36:25Z) - Comparing Normalization Methods for Limited Batch Size Segmentation
Neural Networks [0.0]
バッチ正規化は、トレーニング中に大きなバッチサイズを使用して最もうまく機能する。
限定バッチサイズニューラルネットワークトレーニング環境におけるインスタンス正規化の有効性を示す。
また,本実験で使用したインスタンス正規化実装は,正規化手法を使わずにネットワークと比較した場合,計算時間を効率よくすることを示した。
論文 参考訳(メタデータ) (2020-11-23T17:13:24Z) - Weight and Gradient Centralization in Deep Neural Networks [13.481518628796692]
バッチ正規化は現在、ディープニューラルネットワークにおいて最も広く使われている内部正規化の変種である。
本研究では,これらの手法を組み合わせることにより,ネットワークの一般化が促進される。
論文 参考訳(メタデータ) (2020-10-02T08:50:04Z) - Optimization Theory for ReLU Neural Networks Trained with Normalization
Layers [82.61117235807606]
ディープニューラルネットワークの成功は、部分的には正規化レイヤの使用によるものだ。
我々の分析は、正規化の導入がランドスケープをどのように変化させ、より高速なアクティベーションを実現するかを示している。
論文 参考訳(メタデータ) (2020-06-11T23:55:54Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Gradient Centralization: A New Optimization Technique for Deep Neural
Networks [74.935141515523]
勾配集中(GC)は、勾配ベクトルをゼロ平均とする集中化によって、勾配を直接操作する。
GCは、制約された損失関数を持つ射影勾配降下法とみなすことができる。
GCは実装が非常に簡単で、1行のコードだけで既存のグラデーションベースのDNNに簡単に組み込める。
論文 参考訳(メタデータ) (2020-04-03T10:25:00Z) - Side-Tuning: A Baseline for Network Adaptation via Additive Side
Networks [95.51368472949308]
適応は、トレーニングデータが少ない場合や、ネットワークのプリエンプションをエンコードしたい場合などに有効である。
本稿では,サイドチューニングという簡単な方法を提案する。
論文 参考訳(メタデータ) (2019-12-31T18:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。