論文の概要: Benign overfitting in leaky ReLU networks with moderate input dimension
- arxiv url: http://arxiv.org/abs/2403.06903v3
- Date: Wed, 02 Oct 2024 18:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 17:52:52.118463
- Title: Benign overfitting in leaky ReLU networks with moderate input dimension
- Title(参考訳): 適度な入力次元を有するリークReLUネットワークにおけるベニグアオーバーフィッティング
- Authors: Kedar Karhadkar, Erin George, Michael Murray, Guido Montúfar, Deanna Needell,
- Abstract要約: 二元分類タスクにおけるヒンジ損失を訓練した2層リークReLUネットワークにおけるベニグオーバーフィッティングについて検討した。
モデルパラメータの信号対雑音比 (SNR) の条件を特徴付け, ベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニグニグナグニグニグニグニグナグニグニグニグニ
- 参考スコア(独自算出の注目度): 23.522101525839687
- License:
- Abstract: The problem of benign overfitting asks whether it is possible for a model to perfectly fit noisy training data and still generalize well. We study benign overfitting in two-layer leaky ReLU networks trained with the hinge loss on a binary classification task. We consider input data that can be decomposed into the sum of a common signal and a random noise component, that lie on subspaces orthogonal to one another. We characterize conditions on the signal to noise ratio (SNR) of the model parameters giving rise to benign versus non-benign (or harmful) overfitting: in particular, if the SNR is high then benign overfitting occurs, conversely if the SNR is low then harmful overfitting occurs. We attribute both benign and non-benign overfitting to an approximate margin maximization property and show that leaky ReLU networks trained on hinge loss with gradient descent (GD) satisfy this property. In contrast to prior work we do not require the training data to be nearly orthogonal. Notably, for input dimension $d$ and training sample size $n$, while results in prior work require $d = \Omega(n^2 \log n)$, here we require only $d = \Omega\left(n\right)$.
- Abstract(参考訳): 良性オーバーフィッティングの問題は、モデルがノイズの多いトレーニングデータに完全に適合し、いまだに一般化できるかどうかを問うものである。
二元分類タスクにおけるヒンジ損失を訓練した2層リークReLUネットワークにおけるベニグオーバーフィッティングについて検討した。
入力データを共通の信号とランダムノイズ成分の和に分解し、互いに直交する部分空間上に配置する。
特に、SNRが高い場合、良性オーバーフィッティングが発生し、逆に、SNRが低い場合、有害オーバーフィッティングが発生する。
我々は、良性および非良性オーバーフィッティングの両方を近似的マージン最大化特性とみなし、勾配降下(GD)によるヒンジ損失をトレーニングしたリークReLUネットワークが、この特性を満たすことを示す。
以前の作業とは対照的に、トレーニングデータをほぼ直交する必要はありません。
特に、入力次元$d$とトレーニングサンプルサイズ$n$の場合、事前の作業の結果は$d = \Omega(n^2 \log n)$であり、ここでは$d = \Omega\left(n\right)$のみである。
関連論文リスト
- Sharper Guarantees for Learning Neural Network Classifiers with Gradient Methods [43.32546195968771]
本研究では,スムーズなアクティベーションを有するニューラルネットワークに対する勾配法におけるデータ依存収束と一般化挙動について検討する。
我々の結果は、よく確立されたRadecher複雑性に基づく境界の欠点を改善した。
XOR分布の分類において、NTK体制の結果に対して大きなステップサイズが大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2024-10-13T21:49:29Z) - Benign Overfitting in Single-Head Attention [27.297696573634976]
本研究では,トランスフォーマーの基本構造である単一頭部ソフトマックスアテンションモデルにおける良性オーバーフィッティングについて検討する。
適切な条件下では、勾配降下の2段階の後に既に分類された設定において、モデルが良性過剰適合を示すことが証明される。
論文 参考訳(メタデータ) (2024-10-10T09:23:33Z) - Stable Minima Cannot Overfit in Univariate ReLU Networks: Generalization by Large Step Sizes [29.466981306355066]
固定学習率$eta$の勾配降下はスムーズな関数を表す局所最小値しか見つからないことを示す。
また、$n$のデータポイントのサポートの厳密な内部で、$widetildeO(n-4/5)$のほぼ最適MSE境界を証明します。
論文 参考訳(メタデータ) (2024-06-10T22:57:27Z) - Approximating Positive Homogeneous Functions with Scale Invariant Neural
Networks [28.2446416597989]
まず,数直線測定によるスパースベクトルの回復について考察する。
この結果から,低ランク行列回復や位相回復を含む,より広範な回復問題に拡張する。
我々の結果は、逆問題に対するニューラルネットワークが典型的に非常に大きなリプシッツ定数を持つことを示す以前の研究の矛盾のように見えることに光を当てた。
論文 参考訳(メタデータ) (2023-08-05T10:17:04Z) - Noisy Interpolation Learning with Shallow Univariate ReLU Networks [33.900009202637285]
Mallinar et. al. 2022 は、ニューラルネットワークはしばしば誘惑的な過剰適合を示すが、人口リスクはベイズ最適誤差に収束しないと指摘した。
最小重み付き回帰の過度適合挙動を厳密に分析した。
論文 参考訳(メタデータ) (2023-07-28T08:41:12Z) - Deep Graph Neural Networks via Posteriori-Sampling-based Node-Adaptive Residual Module [65.81781176362848]
グラフニューラルネットワーク(GNN)は、近隣情報収集を通じてグラフ構造化データから学習することができる。
レイヤーの数が増えるにつれて、ノード表現は区別不能になり、オーバー・スムーシング(over-smoothing)と呼ばれる。
我々は,textbfPosterior-Sampling-based, Node-distinguish Residual Module (PSNR)を提案する。
論文 参考訳(メタデータ) (2023-05-09T12:03:42Z) - Benign Overfitting in Linear Classifiers and Leaky ReLU Networks from
KKT Conditions for Margin Maximization [59.038366742773164]
ロジスティック損失の勾配流によって訓練された線形および漏洩ReLUは、KKT条件を満たすための暗黙の偏りを持つ。
本研究では、線形分類器や2層リークReLUネットワークにおいて、これらの条件の満足度が良性オーバーフィットを意味するような設定を多数確立する。
論文 参考訳(メタデータ) (2023-03-02T18:24:26Z) - Optimal Online Generalized Linear Regression with Stochastic Noise and
Its Application to Heteroscedastic Bandits [88.6139446295537]
一般化線形モデルの設定におけるオンライン一般化線形回帰の問題について検討する。
ラベルノイズに対処するため、古典的追従正規化リーダ(FTRL)アルゴリズムを鋭く解析する。
本稿では,FTRLに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T08:25:26Z) - ReLU Regression with Massart Noise [52.10842036932169]
本稿では、ReLU回帰の基本的問題として、Rectified Linear Units(ReLU)をデータに適合させることを目標としている。
我々は自然およびよく研究された半ランダムノイズモデルであるMassartノイズモデルにおけるReLU回帰に着目した。
このモデルにおいて,パラメータの正確な回復を実現する効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-09-10T02:13:22Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - The Generalized Lasso with Nonlinear Observations and Generative Priors [63.541900026673055]
我々は、幅広い測定モデルで満たされるガウス下測度を仮定する。
この結果から, 局所埋込特性を仮定して, 均一回復保証まで拡張できることが示唆された。
論文 参考訳(メタデータ) (2020-06-22T16:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。