Fugu-MT 論文翻訳(概要): Generalization and Stability of Interpolating Neural Networks with Minimal Width

論文の概要: Generalization and Stability of Interpolating Neural Networks with Minimal Width

arxiv url: http://arxiv.org/abs/2302.09235v1
Date: Sat, 18 Feb 2023 05:06:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-21 19:40:56.658835
Title: Generalization and Stability of Interpolating Neural Networks with Minimal Width
Title（参考訳）: 最小幅の補間ニューラルネットワークの一般化と安定性
Authors: Hossein Taheri, Christos Thrampoulidis
Abstract要約: 補間系における浅層ニューラルネットワーク分類器の一般化と最適化について検討する。本研究は,入力データの完全分類が可能なモデルの性能解析に焦点をあてる。
参考スコア（独自算出の注目度）: 37.908159361149835
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate the generalization and optimization of $k$-homogeneous shallow neural-network classifiers in the interpolating regime. The study focuses on analyzing the performance of the model when it is capable of perfectly classifying the input data with a positive margin $\gamma$. When using gradient descent with logistic-loss minimization, we show that the training loss converges to zero at a rate of $\tilde O(1/\gamma^{2/k} T)$ given a polylogarithmic number of neurons. This suggests that gradient descent can find a perfect classifier for $n$ input data within $\tilde{\Omega}(n)$ iterations. Additionally, through a stability analysis we show that with $m=\Omega(\log^{4/k} (n))$ neurons and $T=\Omega(n)$ iterations, the test loss is bounded by $\tilde{O}(1/\gamma^{2/k} n)$. This is in contrast to existing stability results which require polynomial width and yield suboptimal generalization rates. Central to our analysis is the use of a new self-bounded weak convexity property, which leads to a generalized local quasi-convexity property for sufficiently parameterized neural-network classifiers. Eventually, despite the objective's non-convexity, this leads to convergence and generalization-gap bounds that are similar to those in the convex setting of linear logistic regression.
Abstract（参考訳）: 補間系における$k$-均一な浅層ニューラルネットワーク分類器の一般化と最適化について検討する。この研究は、入力データを正のマージン$\gamma$で完全に分類できる場合に、モデルの性能を分析することに焦点を当てている。ロジスティック損失最小化を伴う勾配降下を用いる場合、トレーニング損失は多対数ニューロン数で与えられる$\tilde o(1/\gamma^{2/k} t)$でゼロに収束することを示す。このことは、勾配降下が$\tilde{\Omega}(n)$ iterationsの中で$n$入力データの完全な分類子を見つけることができることを示唆している。さらに、安定性解析によって、$m=\omega(\log^{4/k} (n))$ニューロンと$t=\omega(n)$イテレーションでは、テスト損失は$\tilde{o}(1/\gamma^{2/k} n)$となる。これは多項式の幅と準最適一般化率を必要とする既存の安定性結果とは対照的である。我々の分析の中心は、新しい自己有界弱凸性を用いることで、十分にパラメータ化されたニューラルネットワーク分類器に対する一般化された局所準凸性をもたらす。最終的に、目的の非凸性にもかかわらず、これは線型ロジスティック回帰の凸設定に類似した収束と一般化ギャップ境界をもたらす。

関連論文リスト

Approximation and Generalization Abilities of Score-based Neural Network Generative Models for Sub-Gaussian Distributions [18.375250624200373]
スコアベースニューラルネットワーク生成モデル(SGM)の近似と能力について検討する。我々のフレームワークは普遍的であり、以前の研究よりも軽度の仮定の下でSGMの収束率を確立するために利用することができる。我々の分析では、スコア関数のリプシッツ連続性や、ターゲット密度の厳密な正下界など、いくつかの重要な仮定を取り除いている。
論文参考訳（メタデータ） (2025-05-16T05:38:28Z)
Emergence and scaling laws in SGD learning of shallow neural networks [64.48316762675141]
等方性ガウスデータに基づいてP$ニューロンを持つ2層ニューラルネットワークを学習するためのオンライン勾配降下(SGD)の複雑さについて検討した。平均二乗誤差(MSE)を最小化するために,学生2層ネットワークのトレーニングのためのSGDダイナミックスを高精度に解析する。
論文参考訳（メタデータ） (2025-04-28T16:58:55Z)
Sharp Generalization for Nonparametric Regression in Interpolation Space by Over-Parameterized Neural Networks Trained with Preconditioned Gradient Descent and Early Stopping [15.975065054204753]
アルゴリズムによる保証を訓練した過パラメトリック化された2層ニューラルネットワークを用いて,非回帰について検討する。我々は,早期停止機能を備えた新しいプレコンディショニンググレーディエント・ディフレッシュ(PGD)アルゴリズムを用いてニューラルネットワークをトレーニングすることにより,高い回帰率が得られることを示した。
論文参考訳（メタデータ） (2024-07-16T03:38:34Z)
Stable Minima Cannot Overfit in Univariate ReLU Networks: Generalization by Large Step Sizes [29.466981306355066]
固定学習率$eta$の勾配降下はスムーズな関数を表す局所最小値しか見つからないことを示す。また、$n$のデータポイントのサポートの厳密な内部で、$widetildeO(n-4/5)$のほぼ最適MSE境界を証明します。
論文参考訳（メタデータ） (2024-06-10T22:57:27Z)
Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。 SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文参考訳（メタデータ） (2024-06-03T17:56:58Z)
Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文参考訳（メタデータ） (2024-04-29T15:04:07Z)
A Unified Framework for Uniform Signal Recovery in Nonlinear Generative Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文参考訳（メタデータ） (2023-09-25T17:54:19Z)
Neural Networks Efficiently Learn Low-Dimensional Representations with SGD [22.703825902761405]
SGDで訓練されたReLU NNは、主方向を回復することで、$y=f(langleboldsymbolu,boldsymbolxrangle) + epsilon$という形の単一インデックスターゲットを学習できることを示す。また、SGDによる近似低ランク構造を用いて、NNに対して圧縮保証を提供する。
論文参考訳（メタデータ） (2022-09-29T15:29:10Z)
Bounding the Width of Neural Networks via Coupled Initialization -- A Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文参考訳（メタデータ） (2022-06-26T06:51:31Z)
Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文参考訳（メタデータ） (2020-10-22T00:32:12Z)
Large-time asymptotics in deep learning [0.0]
トレーニングにおける最終時間の$T$(対応するResNetの深さを示す可能性がある)の影響について検討する。古典的な$L2$-正規化経験的リスク最小化問題に対して、トレーニングエラーが$mathcalOleft(frac1Tright)$のほとんどであることを示す。 $ellp$-距離損失の設定において、トレーニングエラーと最適パラメータの両方が$mathcalOleft(e-mu)の順序のほとんどであることを示す。
論文参考訳（メタデータ） (2020-08-06T07:33:17Z)
The Interpolation Phase Transition in Neural Networks: Memorization and Generalization under Lazy Training [10.72393527290646]
ニューラル・タンジェント(NT)体制における2層ニューラルネットワークの文脈における現象について検討した。 Ndgg n$ とすると、テストエラーは無限幅のカーネルに対するカーネルリッジ回帰の1つによってよく近似される。後者は誤差リッジ回帰によりよく近似され、活性化関数の高次成分に関連する自己誘導項により正規化パラメータが増加する。
論文参考訳（メタデータ） (2020-07-25T01:51:13Z)
Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文参考訳（メタデータ） (2020-07-09T07:09:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。