論文の概要: A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning
- arxiv url: http://arxiv.org/abs/2310.18988v1
- Date: Sun, 29 Oct 2023 12:05:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 15:02:35.997867
- Title: A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning
- Title(参考訳): ダブルディフレッシュのUターン:統計的学習におけるパラメータ数の再考
- Authors: Alicia Curth, Alan Jeffares, Mihaela van der Schaar
- Abstract要約: 二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
- 参考スコア(独自算出の注目度): 68.76846801719095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional statistical wisdom established a well-understood relationship
between model complexity and prediction error, typically presented as a
U-shaped curve reflecting a transition between under- and overfitting regimes.
However, motivated by the success of overparametrized neural networks, recent
influential work has suggested this theory to be generally incomplete,
introducing an additional regime that exhibits a second descent in test error
as the parameter count p grows past sample size n - a phenomenon dubbed double
descent. While most attention has naturally been given to the deep-learning
setting, double descent was shown to emerge more generally across non-neural
models: known cases include linear regression, trees, and boosting. In this
work, we take a closer look at evidence surrounding these more classical
statistical machine learning methods and challenge the claim that observed
cases of double descent truly extend the limits of a traditional U-shaped
complexity-generalization curve therein. We show that once careful
consideration is given to what is being plotted on the x-axes of their double
descent plots, it becomes apparent that there are implicitly multiple
complexity axes along which the parameter count grows. We demonstrate that the
second descent appears exactly (and only) when and where the transition between
these underlying axes occurs, and that its location is thus not inherently tied
to the interpolation threshold p=n. We then gain further insight by adopting a
classical nonparametric statistics perspective. We interpret the investigated
methods as smoothers and propose a generalized measure for the effective number
of parameters they use on unseen examples, using which we find that their
apparent double descent curves indeed fold back into more traditional convex
shapes - providing a resolution to tensions between double descent and
statistical intuition.
- Abstract(参考訳): 従来の統計的知恵は、モデル複雑性と予測誤差の間によく理解された関係を確立し、典型的にはU字型の曲線として表され、下級と過度に適合する体制の遷移を反映していた。
しかし、過パラメータ化されたニューラルネットワークの成功に動機づけられた最近の研究は、この理論が一般的に不完全であると示唆しており、パラメータカウントpがサンプルサイズn(二重降下と呼ばれる現象)を超えるにつれて、テストエラーの第2降下を示す追加のレジームが導入されている。
深層学習には自然に注意が向けられているが、二重降下は、線形回帰、木、隆起など、神経以外のモデルでより一般的に現れることが示されている。
本研究では,これらの古典的統計的機械学習手法に関するエビデンスを詳細に検討し,二重降下の観測事例が従来のu字型複雑性一般化曲線の限界を真に拡張しているという主張に異議を唱える。
二重降下プロットのx軸上でプロットされているものに対して注意深い考察がなされると、パラメータ数の増加に伴って暗黙的に複数の複雑性軸が存在することが判明する。
第2の降下は、下層の軸間の遷移が起こる時と場所が正確に(かつ唯一の)現れることを証明し、したがってその位置は本質的に補間しきい値 p=n に結びついていないことを示した。
そして、古典的な非パラメトリック統計の観点を採用することで、さらなる洞察を得る。
研究手法をスムースなものとして解釈し, 未知の例で使用するパラメータの有効数を一般化した尺度を提案し, それらの明らかな二重降下曲線が実際にはより伝統的な凸形に折り返し, 二重降下と統計的直観の間の緊張の解消を提供する。
関連論文リスト
- Bias in Pruned Vision Models: In-Depth Analysis and Countermeasures [93.17009514112702]
ニューラルネットワークのパラメータのかなりの部分集合をゼロに設定するプルーニングは、モデル圧縮の最も一般的な方法の1つである。
この現象の既存の証拠にもかかわらず、ニューラルネットワークのプルーニングと誘導バイアスの関係はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-25T07:42:06Z) - Double Descent Demystified: Identifying, Interpreting & Ablating the
Sources of a Deep Learning Puzzle [12.00962791565144]
二重降下は機械学習の驚くべき現象である。
データ数に対してモデルパラメータの数が増加するにつれて、テストエラーは減少する。
論文 参考訳(メタデータ) (2023-03-24T17:03:40Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z) - Overparameterization and generalization error: weighted trigonometric
interpolation [4.631723879329972]
本研究では,未知のフーリエ係数を等価試料から推定するランダムフーリエ級数モデルについて検討する。
滑らかな補間物に対する偏りが、重み付き三角法一般化の形でどのようにしてより小さい一般化誤差をもたらすかを正確に示す。
論文 参考訳(メタデータ) (2020-06-15T15:53:22Z) - Double Trouble in Double Descent : Bias and Variance(s) in the Lazy
Regime [32.65347128465841]
深層ニューラルネットワークは、トレーニングデータを完璧に補間しながら、素晴らしいパフォーマンスを達成することができる。
バイアス分散トレードオフのU曲線ではなく、テストエラーはしばしば「二重降下」に従う。
我々は、ニューラルネットワークのいわゆる遅延学習システムにおいて、この現象の定量的理論を開発する。
論文 参考訳(メタデータ) (2020-03-02T17:39:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。