論文の概要: A Classical View on Benign Overfitting: The Role of Sample Size
- arxiv url: http://arxiv.org/abs/2505.11621v1
- Date: Fri, 16 May 2025 18:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.743719
- Title: A Classical View on Benign Overfitting: The Role of Sample Size
- Title(参考訳): ベニオンオーバーフィッティングに関する古典的見解:サンプルサイズの役割
- Authors: Junhyung Park, Patrick Bloebaum, Shiva Prasad Kasiviswanathan,
- Abstract要約: モデルは任意に小さなトレーニングとテストエラーの両方を同時に達成する。
この振舞いはニューラルネットワークの特徴であり、しばしば低い(しかしゼロではない)トレーニングエラーを達成するが、それでもよく一般化される。
- 参考スコア(独自算出の注目度): 14.36840959836957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benign overfitting is a phenomenon in machine learning where a model perfectly fits (interpolates) the training data, including noisy examples, yet still generalizes well to unseen data. Understanding this phenomenon has attracted considerable attention in recent years. In this work, we introduce a conceptual shift, by focusing on almost benign overfitting, where models simultaneously achieve both arbitrarily small training and test errors. This behavior is characteristic of neural networks, which often achieve low (but non-zero) training error while still generalizing well. We hypothesize that this almost benign overfitting can emerge even in classical regimes, by analyzing how the interaction between sample size and model complexity enables larger models to achieve both good training fit but still approach Bayes-optimal generalization. We substantiate this hypothesis with theoretical evidence from two case studies: (i) kernel ridge regression, and (ii) least-squares regression using a two-layer fully connected ReLU neural network trained via gradient flow. In both cases, we overcome the strong assumptions often required in prior work on benign overfitting. Our results on neural networks also provide the first generalization result in this setting that does not rely on any assumptions about the underlying regression function or noise, beyond boundedness. Our analysis introduces a novel proof technique based on decomposing the excess risk into estimation and approximation errors, interpreting gradient flow as an implicit regularizer, that helps avoid uniform convergence traps. This analysis idea could be of independent interest.
- Abstract(参考訳): ベニオンオーバーフィッティング(Benign Overfitting)は、機械学習において、モデルがトレーニングデータに完全に適合する(補間する)現象である。
この現象を理解することは近年大きな注目を集めている。
本研究では,モデルが任意に小さなトレーニングとテストエラーの両方を同時に達成する,ほぼ良質なオーバーフィッティングに焦点を当てた概念シフトを導入する。
この振舞いはニューラルネットワークの特徴であり、しばしば低い(しかしゼロではない)トレーニングエラーを達成するが、それでもよく一般化される。
我々は、サンプルサイズとモデル複雑性の間の相互作用が、より大きなモデルが優れたトレーニング適合性の両方を達成できるだけでなく、ベイズ最適化の一般化に近づいているかを分析することによって、古典的な体制においても、このほぼ良質なオーバーフィッティングが出現する可能性があると仮定する。
我々はこの仮説を2つのケーススタディから理論的証拠で裏付ける。
(i)カーネルリッジ回帰、及び
(II) 勾配流を学習した2層完全連結ReLUニューラルネットワークによる最小二乗回帰
どちらの場合も、便宜上の過度な作業でしばしば必要とされる強い仮定を克服します。
ニューラルネットワークに関する我々の結果は、この設定において、基礎となる回帰関数やノイズについて、境界性を超えた仮定に依存しない最初の一般化結果も提供します。
解析では,過大なリスクを推定と近似誤差に分解し,勾配流を暗黙の正規化器として解釈し,一様収束トラップを回避する手法を提案する。
この分析のアイデアは独立した関心事かもしれない。
関連論文リスト
- Understanding the Double Descent Phenomenon in Deep Learning [49.1574468325115]
このチュートリアルは、古典的な統計学習の枠組みを設定し、二重降下現象を導入する。
いくつかの例を見て、セクション2では、二重降下において重要な役割を果たすと思われる帰納的バイアスを導入している。
第3節は2つの線形モデルで二重降下を探索し、最近の関連する研究から他の視点を提供する。
論文 参考訳(メタデータ) (2024-03-15T16:51:24Z) - The Surprising Harmfulness of Benign Overfitting for Adversarial
Robustness [13.120373493503772]
根拠的真理そのものが敵の例に対して堅牢であるとしても、標準のアウト・オブ・サンプルのリスク目標の観点から見れば、明らかに過適合なモデルは良性である、という驚くべき結果が証明されます。
我々の発見は、実際に観察されたパズリング現象に関する理論的洞察を与え、真の標的関数(例えば、人間)は副次的攻撃に対して堅牢であり、一方、当初過適合のニューラルネットワークは、堅牢でないモデルに導かれる。
論文 参考訳(メタデータ) (2024-01-19T15:40:46Z) - Benign Overfitting without Linearity: Neural Network Classifiers Trained
by Gradient Descent for Noisy Linear Data [44.431266188350655]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文 参考訳(メタデータ) (2022-02-11T23:04:00Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z) - Predicting Unreliable Predictions by Shattering a Neural Network [145.3823991041987]
線形ニューラルネットワークは、サブファンクションに分割することができる。
サブファンクションは、独自のアクティベーションパターン、ドメイン、経験的エラーを持っている。
完全なネットワークに対する経験的エラーは、サブファンクションに対する期待として記述できる。
論文 参考訳(メタデータ) (2021-06-15T18:34:41Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。