論文の概要: The Implicit Bias of Batch Normalization in Linear Models and Two-layer
Linear Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2306.11680v2
- Date: Tue, 11 Jul 2023 16:31:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 17:59:09.226475
- Title: The Implicit Bias of Batch Normalization in Linear Models and Two-layer
Linear Convolutional Neural Networks
- Title(参考訳): 線形モデルと2層線形畳み込みニューラルネットワークにおけるバッチ正規化の必然的バイアス
- Authors: Yuan Cao, Difan Zou, Yuanzhi Li, Quanquan Gu
- Abstract要約: 勾配勾配勾配は、exp(-Omega(log2 t))$収束率でトレーニングデータ上の一様マージン分類器に収束することを示す。
また、バッチ正規化はパッチワイドの均一なマージンに対して暗黙の偏りを持つことを示す。
- 参考スコア(独自算出の注目度): 117.93273337740442
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We study the implicit bias of batch normalization trained by gradient
descent. We show that when learning a linear model with batch normalization for
binary classification, gradient descent converges to a uniform margin
classifier on the training data with an $\exp(-\Omega(\log^2 t))$ convergence
rate. This distinguishes linear models with batch normalization from those
without batch normalization in terms of both the type of implicit bias and the
convergence rate. We further extend our result to a class of two-layer,
single-filter linear convolutional neural networks, and show that batch
normalization has an implicit bias towards a patch-wise uniform margin. Based
on two examples, we demonstrate that patch-wise uniform margin classifiers can
outperform the maximum margin classifiers in certain learning problems. Our
results contribute to a better theoretical understanding of batch
normalization.
- Abstract(参考訳): 勾配降下によって訓練されたバッチ正規化の暗黙的バイアスについて検討する。
2進分類のためのバッチ正規化を伴う線形モデルを学ぶとき、勾配勾配は$\exp(-\Omega(\log^2 t))$収束率でトレーニングデータ上の一様マージン分類器に収束する。
これは、バッチ正規化を伴う線形モデルと、暗黙バイアスのタイプと収束率の両方の観点から、バッチ正規化のないモデルとを区別する。
さらに、この結果を2層線形畳み込みニューラルネットワークのクラスに拡張し、バッチ正規化がパッチワイドの均一なマージンに対して暗黙の偏りを持つことを示す。
2つの例に基づいて,パッチワイズ一様マージン分類器は,特定の学習問題において最大マージン分類器よりも優れることを示す。
この結果は,バッチ正規化の理論的理解に寄与する。
関連論文リスト
- Fast Convergence in Learning Two-Layer Neural Networks with Separable
Data [37.908159361149835]
2層ニューラルネット上の正規化勾配勾配について検討した。
正規化GDを用いてトレーニング損失の線形収束率を大域的最適に導くことを証明する。
論文 参考訳(メタデータ) (2023-05-22T20:30:10Z) - Robust Implicit Regularization via Weight Normalization [5.37610807422229]
重み正規化は、重みが実質的に大規模であっても持続する頑健なバイアスを可能にすることを示す。
実験により, 暗黙バイアスの収束速度とロバスト性の両方の利得は, 重み正規化を用いて劇的に改善されることが示唆された。
論文 参考訳(メタデータ) (2023-05-09T13:38:55Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Gaussian Universality of Linear Classifiers with Random Labels in
High-Dimension [24.503842578208268]
高次元における生成モデルから得られるデータは、ガウスデータと対応するデータ共分散の最小限の訓練損失を持つことを示す。
特に,同質なガウス雲と多モード生成ニューラルネットワークの任意の混合によって生成されたデータについて述べる。
論文 参考訳(メタデータ) (2022-05-26T12:25:24Z) - Benign Overfitting without Linearity: Neural Network Classifiers Trained
by Gradient Descent for Noisy Linear Data [44.431266188350655]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文 参考訳(メタデータ) (2022-02-11T23:04:00Z) - Distribution of Classification Margins: Are All Data Equal? [61.16681488656473]
我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを実証的に示す。
結果として生じる"高いキャパシティ"機能のサブセットは、異なるトレーニング実行間で一貫性がない。
論文 参考訳(メタデータ) (2021-07-21T16:41:57Z) - Fast Margin Maximization via Dual Acceleration [52.62944011696364]
指数関数的尾の損失を持つ線形分類器を訓練するための運動量に基づく手法を提案し,解析する。
この運動量に基づく法は、最大マルジン問題の凸双対、特にこの双対にネステロフ加速度を適用することによって導出される。
論文 参考訳(メタデータ) (2021-07-01T16:36:39Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z) - Binary Classification of Gaussian Mixtures: Abundance of Support
Vectors, Benign Overfitting and Regularization [39.35822033674126]
生成ガウス混合モデルに基づく二項線形分類について検討する。
後者の分類誤差に関する新しい非漸近境界を導出する。
この結果は, 確率が一定である雑音モデルに拡張される。
論文 参考訳(メタデータ) (2020-11-18T07:59:55Z) - Improving predictions of Bayesian neural nets via local linearization [79.21517734364093]
ガウス・ニュートン近似は基礎となるベイズニューラルネットワーク(BNN)の局所線形化として理解されるべきである。
この線形化モデルを後部推論に使用するので、元のモデルではなく、この修正モデルを使用することも予測すべきである。
この修正された予測を"GLM predictive"と呼び、Laplace近似の共通不適合問題を効果的に解決することを示す。
論文 参考訳(メタデータ) (2020-08-19T12:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。