論文の概要: Regularization-wise double descent: Why it occurs and how to eliminate
it
- arxiv url: http://arxiv.org/abs/2206.01378v1
- Date: Fri, 3 Jun 2022 03:23:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 13:32:55.766353
- Title: Regularization-wise double descent: Why it occurs and how to eliminate
it
- Title(参考訳): 正規化に関する2重降下の理由と除去方法
- Authors: Fatih Furkan Yilmaz, Reinhard Heckel
- Abstract要約: 正規化強度の関数として, 明示的なL2正規化モデルのリスクが二重降下挙動を示すことを示す。
本研究では,2層ニューラルネットワークについて検討し,第1層と第2層の正則化強度を調整することにより,二重降下を除去できることを示す。
- 参考スコア(独自算出の注目度): 30.61588337557343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The risk of overparameterized models, in particular deep neural networks, is
often double-descent shaped as a function of the model size. Recently, it was
shown that the risk as a function of the early-stopping time can also be
double-descent shaped, and this behavior can be explained as a super-position
of bias-variance tradeoffs. In this paper, we show that the risk of explicit
L2-regularized models can exhibit double descent behavior as a function of the
regularization strength, both in theory and practice. We find that for linear
regression, a double descent shaped risk is caused by a superposition of
bias-variance tradeoffs corresponding to different parts of the model and can
be mitigated by scaling the regularization strength of each part appropriately.
Motivated by this result, we study a two-layer neural network and show that
double descent can be eliminated by adjusting the regularization strengths for
the first and second layer. Lastly, we study a 5-layer CNN and ResNet-18
trained on CIFAR-10 with label noise, and CIFAR-100 without label noise, and
demonstrate that all exhibit double descent behavior as a function of the
regularization strength.
- Abstract(参考訳): 過度にパラメータ化されたモデル、特にディープニューラルネットワークのリスクは、しばしばモデルサイズの関数として二重発色である。
近年,早期停止時間の関数としてのリスクも二重発振型であり,バイアス分散トレードオフのスーパーポジションとして説明できることが明らかとなった。
本稿では,L2正規化モデルのリスクが,理論と実践の両方において正則化強度の関数として二重降下挙動を示すことを示す。
線形回帰では,モデルの異なる部分に対応するバイアス分散トレードオフの重ね合わせによって二重降下型リスクが発生し,各部分の正則化強度を適切にスケーリングすることで軽減できることがわかった。
この結果から,第1層と第2層の正則化強度を調整することにより,2層ニューラルネットワークの研究を行い,二重降下を除去できることを示す。
最後に、ラベルノイズのないCIFAR-10とCIFAR-100を訓練した5層CNNとResNet-18について検討し、正則化強度の関数として二重降下挙動を示すことを示した。
関連論文リスト
- Towards understanding epoch-wise double descent in two-layer linear neural networks [11.210628847081097]
2層線形ニューラルネットワークにおけるエポックワイズ二重降下について検討した。
余剰モデル層で出現するエポックな2重降下の要因を同定した。
これは真に深いモデルに対するエポックワイズ二重降下の未同定因子に関するさらなる疑問を提起する。
論文 参考訳(メタデータ) (2024-07-13T10:45:21Z) - The Surprising Harmfulness of Benign Overfitting for Adversarial
Robustness [13.120373493503772]
根拠的真理そのものが敵の例に対して堅牢であるとしても、標準のアウト・オブ・サンプルのリスク目標の観点から見れば、明らかに過適合なモデルは良性である、という驚くべき結果が証明されます。
我々の発見は、実際に観察されたパズリング現象に関する理論的洞察を与え、真の標的関数(例えば、人間)は副次的攻撃に対して堅牢であり、一方、当初過適合のニューラルネットワークは、堅牢でないモデルに導かれる。
論文 参考訳(メタデータ) (2024-01-19T15:40:46Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - DR3: Value-Based Deep Reinforcement Learning Requires Explicit
Regularization [125.5448293005647]
教師付き学習で見られるSGDの暗黙的な正則化効果が、オフラインの深いRLでは有害である可能性について論じる。
我々の理論的解析は、暗黙正則化の既存のモデルが時間差分学習に適用された場合、導出正規化器は退化解を好むことを示している。
我々は、この暗黙的正則化の望ましくない効果に対処する、DR3と呼ばれる単純で効果的な明示的正則化器を提案する。
論文 参考訳(メタデータ) (2021-12-09T06:01:01Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Estimation of Bivariate Structural Causal Models by Variational Gaussian
Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。
最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文 参考訳(メタデータ) (2021-09-06T14:52:58Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Nonasymptotic theory for two-layer neural networks: Beyond the
bias-variance trade-off [10.182922771556742]
本稿では,ReLUアクティベーション機能を持つ2層ニューラルネットワークに対する漸近的一般化理論を提案する。
過度にパラメータ化されたランダムな特徴モデルは次元性の呪いに悩まされ、従って準最適であることを示す。
論文 参考訳(メタデータ) (2021-06-09T03:52:18Z) - Early Stopping in Deep Networks: Double Descent and How to Eliminate it [30.61588337557343]
ネットワークの異なる部分が異なるエポックで学習されるため、エポックワイズな二重降下が発生することを示す。
本研究では,2つの標準畳み込みネットワークを実証的に検討し,異なる階層の段差調整によるエポックな二重降下の除去が早期停止性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T13:43:33Z) - Optimal Regularization Can Mitigate Double Descent [29.414119906479954]
最適正則化を用いて二重発振現象を回避できるかどうかを検討した。
我々は、最適に調整された$ell$正規化が、ニューラルネットワークを含むより一般的なモデルの2重降下を可能にすることを実証的に実証した。
論文 参考訳(メタデータ) (2020-03-04T05:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。