論文の概要: Separating the Effects of Batch Normalization on CNN Training Speed and
Stability Using Classical Adaptive Filter Theory
- arxiv url: http://arxiv.org/abs/2002.10674v2
- Date: Tue, 1 Jun 2021 11:22:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 20:34:16.797898
- Title: Separating the Effects of Batch Normalization on CNN Training Speed and
Stability Using Classical Adaptive Filter Theory
- Title(参考訳): 古典的適応フィルタ理論を用いたCNN訓練速度と安定性に及ぼすバッチ正規化の影響の分離
- Authors: Elaina Chai, Mert Pilanci, Boris Murmann
- Abstract要約: バッチ正規化(BatchNorm)は、トレーニング速度と安定性を改善するために、畳み込みニューラルネットワーク(CNN)で一般的に使用される。
本稿では、従来の適応フィルタ領域の概念を用いて、BatchNormの動的および内部動作に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 40.55789598448379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Batch Normalization (BatchNorm) is commonly used in Convolutional Neural
Networks (CNNs) to improve training speed and stability. However, there is
still limited consensus on why this technique is effective. This paper uses
concepts from the traditional adaptive filter domain to provide insight into
the dynamics and inner workings of BatchNorm. First, we show that the
convolution weight updates have natural modes whose stability and convergence
speed are tied to the eigenvalues of the input autocorrelation matrices, which
are controlled by BatchNorm through the convolution layers' channel-wise
structure. Furthermore, our experiments demonstrate that the speed and
stability benefits are distinct effects. At low learning rates, it is
BatchNorm's amplification of the smallest eigenvalues that improves convergence
speed, while at high learning rates, it is BatchNorm's suppression of the
largest eigenvalues that ensures stability. Lastly, we prove that in the first
training step, when normalization is needed most, BatchNorm satisfies the same
optimization as Normalized Least Mean Square (NLMS), while it continues to
approximate this condition in subsequent steps. The analyses provided in this
paper lay the groundwork for gaining further insight into the operation of
modern neural network structures using adaptive filter theory.
- Abstract(参考訳): バッチ正規化(BatchNorm)は、トレーニング速度と安定性を改善するために、畳み込みニューラルネットワーク(CNN)で一般的に使用される。
しかし、なぜこの手法が有効であるかについてのコンセンサスはまだ限られている。
本稿では、従来の適応フィルタ領域の概念を用いて、BatchNormの動的および内部動作に関する洞察を提供する。
まず、畳み込み重み更新は、畳み込み層のチャネルワイド構造を介してBatchNormによって制御される入力自己相関行列の固有値に、安定性と収束速度が結びついている自然なモードを持つことを示す。
さらに,本実験では,速度と安定性の利点が異なる効果を示す。
低い学習率では、収束速度を改善する最小固有値のBatchNormの増幅であり、高い学習率では、安定性を保証する最大の固有値の抑制である。
最後に、第1のトレーニングステップにおいて、正規化が最も必要となる場合、BatchNormは正規化リースト平均角 (NLMS) と同じ最適化を満足する一方で、その後のステップでこの条件を近似し続けていることを証明した。
本稿では,適応フィルタ理論を用いて,現代のニューラルネットワーク構造に関するさらなる知見を得るための基礎研究を行った。
関連論文リスト
- Efficient Bound of Lipschitz Constant for Convolutional Layers by Gram
Iteration [122.51142131506639]
循環行列理論を用いて畳み込み層のスペクトルノルムに対して、精密で高速で微分可能な上界を導入する。
提案手法は, 精度, 計算コスト, スケーラビリティの観点から, 他の最先端手法よりも優れていることを示す。
これは畳み込みニューラルネットワークのリプシッツ正則化に非常に効果的であり、並行アプローチに対する競合的な結果である。
論文 参考訳(メタデータ) (2023-05-25T15:32:21Z) - An Empirical Analysis of the Shift and Scale Parameters in BatchNorm [3.198144010381572]
Batch Normalization(BatchNorm)は、ディープニューラルネットワークのトレーニングを改善するテクニックである。
本稿では,正規化段階におけるBatchNormの成功に対する相対的貢献について検討する。
論文 参考訳(メタデータ) (2023-03-22T12:41:12Z) - Towards Practical Control of Singular Values of Convolutional Layers [65.25070864775793]
畳み込みニューラルネットワーク(CNN)の訓練は容易であるが、一般化誤差や対向ロバスト性といった基本的な特性は制御が難しい。
最近の研究では、畳み込み層の特異値がそのような解像特性に顕著に影響を及ぼすことが示された。
我々は,レイヤ表現力の著しく低下を犠牲にして,先行技術の制約を緩和するための原則的アプローチを提供する。
論文 参考訳(メタデータ) (2022-11-24T19:09:44Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Sample-Then-Optimize Batch Neural Thompson Sampling [50.800944138278474]
我々はトンプソンサンプリング(TS)ポリシーに基づくブラックボックス最適化のための2つのアルゴリズムを提案する。
入力クエリを選択するには、NNをトレーニングし、トレーニングされたNNを最大化してクエリを選択するだけです。
我々のアルゴリズムは、大きなパラメータ行列を逆転する必要性を助長するが、TSポリシーの妥当性は保たれている。
論文 参考訳(メタデータ) (2022-10-13T09:01:58Z) - TO-FLOW: Efficient Continuous Normalizing Flows with Temporal
Optimization adjoint with Moving Speed [12.168241245313164]
連続正規化フロー (CNFs) は任意の複素分布と等方ガウス分布の間の可逆写像を構成する。
ニューラルODEトレーニングの複雑さが増しているため、大規模なデータセットでは処理できない。
本稿では,ニューラル・オード・トレーニングの前方伝播の進化時間を最適化し,時間的最適化を提案する。
論文 参考訳(メタデータ) (2022-03-19T14:56:41Z) - Demystifying Batch Normalization in ReLU Networks: Equivalent Convex
Optimization Models and Implicit Regularization [29.411334761836958]
BNを用いた重量減少正規化RELUネットワークの正確な凸表現を得るための解析フレームワークに基づく凸双対性を導入する。
解析により,高次元および/またはCIF化系における単純な閉形式式として最適層重みを求めることができることがわかった。
論文 参考訳(メタデータ) (2021-03-02T06:36:31Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。