論文の概要: Generalization and Stability of Interpolating Neural Networks with
Minimal Width
- arxiv url: http://arxiv.org/abs/2302.09235v1
- Date: Sat, 18 Feb 2023 05:06:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 19:40:56.658835
- Title: Generalization and Stability of Interpolating Neural Networks with
Minimal Width
- Title(参考訳): 最小幅の補間ニューラルネットワークの一般化と安定性
- Authors: Hossein Taheri, Christos Thrampoulidis
- Abstract要約: 補間系における浅層ニューラルネットワーク分類器の一般化と最適化について検討する。
本研究は,入力データの完全分類が可能なモデルの性能解析に焦点をあてる。
- 参考スコア(独自算出の注目度): 37.908159361149835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the generalization and optimization of $k$-homogeneous shallow
neural-network classifiers in the interpolating regime. The study focuses on
analyzing the performance of the model when it is capable of perfectly
classifying the input data with a positive margin $\gamma$. When using gradient
descent with logistic-loss minimization, we show that the training loss
converges to zero at a rate of $\tilde O(1/\gamma^{2/k} T)$ given a
polylogarithmic number of neurons. This suggests that gradient descent can find
a perfect classifier for $n$ input data within $\tilde{\Omega}(n)$ iterations.
Additionally, through a stability analysis we show that with
$m=\Omega(\log^{4/k} (n))$ neurons and $T=\Omega(n)$ iterations, the test loss
is bounded by $\tilde{O}(1/\gamma^{2/k} n)$. This is in contrast to existing
stability results which require polynomial width and yield suboptimal
generalization rates. Central to our analysis is the use of a new self-bounded
weak convexity property, which leads to a generalized local quasi-convexity
property for sufficiently parameterized neural-network classifiers. Eventually,
despite the objective's non-convexity, this leads to convergence and
generalization-gap bounds that are similar to those in the convex setting of
linear logistic regression.
- Abstract(参考訳): 補間系における$k$-均一な浅層ニューラルネットワーク分類器の一般化と最適化について検討する。
この研究は、入力データを正のマージン$\gamma$で完全に分類できる場合に、モデルの性能を分析することに焦点を当てている。
ロジスティック損失最小化を伴う勾配降下を用いる場合、トレーニング損失は多対数ニューロン数で与えられる$\tilde o(1/\gamma^{2/k} t)$でゼロに収束することを示す。
このことは、勾配降下が$\tilde{\Omega}(n)$ iterationsの中で$n$入力データの完全な分類子を見つけることができることを示唆している。
さらに、安定性解析によって、$m=\omega(\log^{4/k} (n))$ニューロンと$t=\omega(n)$イテレーションでは、テスト損失は$\tilde{o}(1/\gamma^{2/k} n)$となる。
これは多項式の幅と準最適一般化率を必要とする既存の安定性結果とは対照的である。
我々の分析の中心は、新しい自己有界弱凸性を用いることで、十分にパラメータ化されたニューラルネットワーク分類器に対する一般化された局所準凸性をもたらす。
最終的に、目的の非凸性にもかかわらず、これは線型ロジスティック回帰の凸設定に類似した収束と一般化ギャップ境界をもたらす。
関連論文リスト
- A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Neural Networks Efficiently Learn Low-Dimensional Representations with
SGD [22.703825902761405]
SGDで訓練されたReLU NNは、主方向を回復することで、$y=f(langleboldsymbolu,boldsymbolxrangle) + epsilon$という形の単一インデックスターゲットを学習できることを示す。
また、SGDによる近似低ランク構造を用いて、NNに対して圧縮保証を提供する。
論文 参考訳(メタデータ) (2022-09-29T15:29:10Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - A Law of Robustness beyond Isoperimetry [84.33752026418045]
我々は、任意の分布上でニューラルネットワークパラメータを補間する頑健性の低い$Omega(sqrtn/p)$を証明した。
次に、$n=mathrmpoly(d)$のとき、スムーズなデータに対する過度なパラメータ化の利点を示す。
我々は、$n=exp(omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。
論文 参考訳(メタデータ) (2022-02-23T16:10:23Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Large-time asymptotics in deep learning [0.0]
トレーニングにおける最終時間の$T$(対応するResNetの深さを示す可能性がある)の影響について検討する。
古典的な$L2$-正規化経験的リスク最小化問題に対して、トレーニングエラーが$mathcalOleft(frac1Tright)$のほとんどであることを示す。
$ellp$-距離損失の設定において、トレーニングエラーと最適パラメータの両方が$mathcalOleft(e-mu)の順序のほとんどであることを示す。
論文 参考訳(メタデータ) (2020-08-06T07:33:17Z) - The Interpolation Phase Transition in Neural Networks: Memorization and
Generalization under Lazy Training [10.72393527290646]
ニューラル・タンジェント(NT)体制における2層ニューラルネットワークの文脈における現象について検討した。
Ndgg n$ とすると、テストエラーは無限幅のカーネルに対するカーネルリッジ回帰の1つによってよく近似される。
後者は誤差リッジ回帰によりよく近似され、活性化関数の高次成分に関連する自己誘導項により正規化パラメータが増加する。
論文 参考訳(メタデータ) (2020-07-25T01:51:13Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - A Corrective View of Neural Networks: Representation, Memorization and
Learning [26.87238691716307]
我々はニューラルネットワーク近似の補正機構を開発する。
ランダム・フィーチャー・レギュレーション(RF)における2層ニューラルネットワークは任意のラベルを記憶できることを示す。
また、3層ニューラルネットワークについても検討し、その補正機構がスムーズなラジアル関数に対する高速な表現率をもたらすことを示す。
論文 参考訳(メタデータ) (2020-02-01T20:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。