論文の概要: Benign Overfitting and Noisy Features
- arxiv url: http://arxiv.org/abs/2008.02901v2
- Date: Thu, 4 Feb 2021 19:59:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 06:43:31.965653
- Title: Benign Overfitting and Noisy Features
- Title(参考訳): 良質なオーバーフィッティングとノイズのある機能
- Authors: Zhu Li, Weijie Su, Dino Sejdinovic
- Abstract要約: 現代の機械学習は、パラメータの数がデータポイントの数よりもはるかに多い状態で動作する。
このテキスタイルオーバーフィッティング現象は、最近、いわゆるテキスタイルダブル降下曲線を用いて特徴づけられている。
我々はランダムな特徴の新たな視点を採用し、このような特徴に残留するノイズにより、テクティトベニグの過剰適合が生じることを示す。
- 参考スコア(独自算出の注目度): 21.652936151487403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern machine learning often operates in the regime where the number of
parameters is much higher than the number of data points, with zero training
loss and yet good generalization, thereby contradicting the classical
bias-variance trade-off. This \textit{benign overfitting} phenomenon has
recently been characterized using so called \textit{double descent} curves
where the risk undergoes another descent (in addition to the classical U-shaped
learning curve when the number of parameters is small) as we increase the
number of parameters beyond a certain threshold. In this paper, we examine the
conditions under which \textit{Benign Overfitting} occurs in the random feature
(RF) models, i.e. in a two-layer neural network with fixed first layer weights.
We adopt a new view of random feature and show that \textit{benign overfitting}
arises due to the noise which resides in such features (the noise may already
be present in the data and propagate to the features or it may be added by the
user to the features directly) and plays an important implicit regularization
role in the phenomenon.
- Abstract(参考訳): 現代の機械学習は、パラメータの数がデータポイントの数よりもはるかに多く、訓練損失がゼロであり、しかし、十分に一般化された状態にあるため、古典的なバイアス分散トレードオフとは矛盾する。
この \textit{benign overfitting} 現象は、あるしきい値を超えたパラメータの数を増やすために、リスクが別の降下(パラメータの数が小さいときの古典的なU字型学習曲線に加えて)するいわゆる \textit{double descend} 曲線を用いて、最近特徴付けられる。
本稿では,第1層重みが固定された2層ニューラルネットワークにおいて,ランダム特徴量(rf)モデルにおいて \textit{benign overfitting} が発生する条件について検討する。
ランダムな特徴の新たなビューを採用し、そのような特徴に存在するノイズ(このノイズはすでにデータに存在し、特徴に伝播したり、ユーザーが直接機能に追加したり)によって生じることを示し、その現象において重要な暗黙的な正規化の役割を担っている。
関連論文リスト
- A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Stochastic Collapse: How Gradient Noise Attracts SGD Dynamics Towards Simpler Subnetworks [28.87871359825978]
我々は、過度に表現力のあるネットワークをもっと単純な作業へと駆動する、降下勾配(SGD)の強い暗黙バイアスを明らかにする。
より単純な(疎あるいは低ランクな)作業に対応する不変集合の2つのクラスに焦点を合わせ、現代建築に一般的に現れる。
我々は、訓練されたディープニューラルネットワークにおける魅力的な不変集合の存在を経験的に観察し、SGDのダイナミクスが、冗長なニューロンで単純な処理を消滅させることがしばしばあることを示唆している。
論文 参考訳(メタデータ) (2023-06-07T08:44:51Z) - On the ISS Property of the Gradient Flow for Single Hidden-Layer Neural
Networks with Linear Activations [0.0]
本研究では,不確かさが勾配推定に及ぼす影響について検討した。
一般の過度にパラメータ化された定式化は、損失関数が最小化される集合の外側に配置されるスプリアス平衡の集合を導入することを示す。
論文 参考訳(メタデータ) (2023-05-17T02:26:34Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Random Feature Amplification: Feature Learning and Generalization in
Neural Networks [44.431266188350655]
勾配降下法により訓練された2層ReLUネットワークにおける特徴学習過程の特徴付けを行う。
線形分類器は分布のランダムな推定に勝るものの,勾配降下により訓練された2層ReLUネットワークはラベルノイズ率に近い一般化誤差を達成できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:18:22Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Risk Bounds for Over-parameterized Maximum Margin Classification on
Sub-Gaussian Mixtures [100.55816326422773]
線形分類問題に対する最大マージン分類器の現象について検討する。
その結果、良性的なオーバーフィットが起きる条件を正確に特徴づけます。
論文 参考訳(メタデータ) (2021-04-28T08:25:16Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z) - Contextual Linear Bandits under Noisy Features: Towards Bayesian Oracles [65.9694455739978]
特徴不確実性の下での文脈線形帯域問題について検討する。
本分析により, 最適仮説は, 雑音特性に応じて, 基礎となる実現可能性関数から著しく逸脱しうることが明らかとなった。
これは、古典的アプローチが非自明な後悔境界を保証できないことを意味する。
論文 参考訳(メタデータ) (2017-03-03T21:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。