論文の概要: Penalising the biases in norm regularisation enforces sparsity
- arxiv url: http://arxiv.org/abs/2303.01353v1
- Date: Thu, 2 Mar 2023 15:33:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 13:44:14.601189
- Title: Penalising the biases in norm regularisation enforces sparsity
- Title(参考訳): 標準正規化におけるバイアスの緩和はスパーシリティを強制する
- Authors: Etienne Boursier and Nicolas Flammarion
- Abstract要約: パラメータのノルムを制御することは、ニューラルネットワークを訓練するときによく一般化される。
この研究は、函数を表すのに必要な最小パラメータのノルムが、その第二微分の総変分によって与えられることを示している。
- 参考スコア(独自算出の注目度): 20.102619493827024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controlling the parameters' norm often yields good generalisation when
training neural networks. Beyond simple intuitions, the relation between
parameters' norm and obtained estimators theoretically remains misunderstood.
For one hidden ReLU layer networks with unidimensional data, this work shows
the minimal parameters' norm required to represent a function is given by the
total variation of its second derivative, weighted by a $\sqrt{1+x^2}$ factor.
As a comparison, this $\sqrt{1+x^2}$ weighting disappears when the norm of the
bias terms are ignored. This additional weighting is of crucial importance,
since it is shown in this work to enforce uniqueness and sparsity (in number of
kinks) of the minimal norm interpolator. On the other hand, omitting the bias'
norm allows for non-sparse solutions. Penalising the bias terms in the
regularisation, either explicitly or implicitly, thus leads to sparse
estimators. This sparsity might take part in the good generalisation of neural
networks that is empirically observed.
- Abstract(参考訳): パラメータのノルムを制御することは、ニューラルネットワークのトレーニング時によく一般化される。
単純な直観以外にも、パラメータのノルムと得られた推定値の関係は理論的には誤解されている。
一次元データを持つ1つの隠れReLU層ネットワークに対して、この研究は関数を表すのに必要な最小パラメータのノルムが、その2階微分の総変分によって与えられることを示す。
比較として、この$\sqrt{1+x^2}$重み付けはバイアス項のノルムが無視されるときに消える。
この重み付けは、最小ノルム補間器の特異性と疎度(キンク数)を強制するためにこの研究で示されるため、非常に重要である。
一方、バイアスのノルムを省略することは非スパース解を可能にする。
正規化におけるバイアス項を明示的にまたは暗黙的に解析すると、スパース推定器が生じる。
このスパーシティは、経験的に観察されるニューラルネットワークの優れた一般化に寄与する可能性がある。
関連論文リスト
- Minimum norm interpolation by perceptra: Explicit regularization and
implicit bias [0.3499042782396683]
本稿では,ReLUネットワークが既知領域間でどのように相互接続するかを検討する。
我々は、既知の最小ノルム補間子に対する共通最適化アルゴリズムの暗黙バイアスを数値的に研究する。
論文 参考訳(メタデータ) (2023-11-10T15:55:47Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - On the Importance of Gradient Norm in PAC-Bayesian Bounds [92.82627080794491]
対数ソボレフ不等式の縮約性を利用する新しい一般化法を提案する。
我々は、この新たな損失段階的ノルム項が異なるニューラルネットワークに与える影響を実証的に分析する。
論文 参考訳(メタデータ) (2022-10-12T12:49:20Z) - The Sample Complexity of One-Hidden-Layer Neural Networks [57.6421258363243]
本研究では,スカラー値を持つ一層ネットワークのクラスとユークリッドノルムで有界な入力について検討する。
隠蔽層重み行列のスペクトルノルムの制御は、一様収束を保証するには不十分であることを示す。
スペクトルノルム制御が十分であることを示す2つの重要な設定を解析する。
論文 参考訳(メタデータ) (2022-02-13T07:12:02Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Explicit regularization and implicit bias in deep network classifiers
trained with the square loss [2.8935588665357077]
平方損失で訓練された深いReLUネットワークは分類の仕事でよく機能するために観察されました。
正規化法を重み決定法とともに用いる場合,絶対最小ノルムの解への収束が期待できることを示す。
論文 参考訳(メタデータ) (2020-12-31T21:07:56Z) - Implicit Regularization in ReLU Networks with the Square Loss [56.70360094597169]
モデルパラメータの明示的な関数によって、平方損失による暗黙の正規化を特徴付けることは不可能であることを示す。
非線形予測器の暗黙的正規化を理解するためには,より一般的な枠組みが必要であることが示唆された。
論文 参考訳(メタデータ) (2020-12-09T16:48:03Z) - Failures of model-dependent generalization bounds for least-norm
interpolation [39.97534972432276]
最小ノルム線形回帰器の一般化性能に関するバウンダリを考察する。
訓練例における様々な自然な関節分布に対して、任意の有効な一般化境界は非常に緩くなければならない。
論文 参考訳(メタデータ) (2020-10-16T16:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。