論文の概要: Explicit regularization and implicit bias in deep network classifiers
trained with the square loss
- arxiv url: http://arxiv.org/abs/2101.00072v1
- Date: Thu, 31 Dec 2020 21:07:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 19:03:31.736504
- Title: Explicit regularization and implicit bias in deep network classifiers
trained with the square loss
- Title(参考訳): 正方形損失を訓練した深層ネットワーク分類器の明示的正規化と暗黙的バイアス
- Authors: Tomaso Poggio and Qianli Liao
- Abstract要約: 平方損失で訓練された深いReLUネットワークは分類の仕事でよく機能するために観察されました。
正規化法を重み決定法とともに用いる場合,絶対最小ノルムの解への収束が期待できることを示す。
- 参考スコア(独自算出の注目度): 2.8935588665357077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep ReLU networks trained with the square loss have been observed to perform
well in classification tasks. We provide here a theoretical justification based
on analysis of the associated gradient flow. We show that convergence to a
solution with the absolute minimum norm is expected when normalization
techniques such as Batch Normalization (BN) or Weight Normalization (WN) are
used together with Weight Decay (WD). The main property of the minimizers that
bounds their expected error is the norm: we prove that among all the
close-to-interpolating solutions, the ones associated with smaller Frobenius
norms of the unnormalized weight matrices have better margin and better bounds
on the expected classification error. With BN but in the absence of WD, the
dynamical system is singular. Implicit dynamical regularization -- that is
zero-initial conditions biasing the dynamics towards high margin solutions --
is also possible in the no-BN and no-WD case. The theory yields several
predictions, including the role of BN and weight decay, aspects of Papyan, Han
and Donoho's Neural Collapse and the constraints induced by BN on the network
weights.
- Abstract(参考訳): 正方形損失で訓練された深部ReLUネットワークは、分類タスクでよく機能する。
ここでは,関連する勾配流の解析に基づく理論的正当化について述べる。
バッチ正規化 (bn) や重み正規化 (wn) といった正規化手法を重量減衰 (wd) とともに用いる場合, 絶対最小ノルムを持つ解への収束が期待される。
それらの期待誤差の境界となる最小子の主な性質はノルムである:我々はすべての近接補間解の中で、非正規化された重み行列のより小さいフロベニウスノルムに関連するものは、期待された分類誤差のマージンとより良い境界を持つことを証明する。
BN では、WD が存在しない場合、力学系は特異である。
インプリシットな動的正則化(英語版) -- ゼロ初期条件であり、高マージン解に対するダイナミクスをバイアスする - は、no-BN および no-WD の場合でも可能である。
この理論は、BNとウェイト崩壊の役割、パパヤン、ハン、ドノホのニューラル崩壊の側面、BNがネットワーク重みに対して引き起こす制約など、いくつかの予測をもたらす。
関連論文リスト
- Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - Optimization and Generalization Guarantees for Weight Normalization [19.965963460750206]
我々は、Deep WeightNormモデルの最適化と一般化の双方について、最初の理論的特徴付けを提供する。
本稿では,WeightNormネットワークのトレーニングに正規化項などの理論的関心が関係していることを示す実験結果を示す。
論文 参考訳(メタデータ) (2024-09-13T15:55:05Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Robust Implicit Regularization via Weight Normalization [5.37610807422229]
重み正規化は、重みが実質的に大規模であっても持続する頑健なバイアスを可能にすることを示す。
実験により, 暗黙バイアスの収束速度とロバスト性の両方の利得は, 重み正規化を用いて劇的に改善されることが示唆された。
論文 参考訳(メタデータ) (2023-05-09T13:38:55Z) - On generalization bounds for deep networks based on loss surface
implicit regularization [5.68558935178946]
現代のディープニューラルネットワークは、多くのパラメータにもかかわらずよく一般化されている。
現在のディープニューラルネットワークは、多くのパラメータが古典的な統計的学習理論と矛盾するにもかかわらず、よく一般化されている。
論文 参考訳(メタデータ) (2022-01-12T16:41:34Z) - Distribution of Classification Margins: Are All Data Equal? [61.16681488656473]
我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを実証的に示す。
結果として生じる"高いキャパシティ"機能のサブセットは、異なるトレーニング実行間で一貫性がない。
論文 参考訳(メタデータ) (2021-07-21T16:41:57Z) - Demystifying Batch Normalization in ReLU Networks: Equivalent Convex
Optimization Models and Implicit Regularization [29.411334761836958]
BNを用いた重量減少正規化RELUネットワークの正確な凸表現を得るための解析フレームワークに基づく凸双対性を導入する。
解析により,高次元および/またはCIF化系における単純な閉形式式として最適層重みを求めることができることがわかった。
論文 参考訳(メタデータ) (2021-03-02T06:36:31Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。