Fugu-MT 論文翻訳(概要): Fast Convergence in Learning Two-Layer Neural Networks with Separable Data

論文の概要: Fast Convergence in Learning Two-Layer Neural Networks with Separable Data

arxiv url: http://arxiv.org/abs/2305.13471v2
Date: Mon, 26 Jun 2023 19:19:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-28 16:48:08.933069
Title: Fast Convergence in Learning Two-Layer Neural Networks with Separable Data
Title（参考訳）: 分離データを用いた2層ニューラルネットワーク学習における高速収束
Authors: Hossein Taheri, Christos Thrampoulidis
Abstract要約: 2層ニューラルネット上の正規化勾配勾配について検討した。正規化GDを用いてトレーニング損失の線形収束率を大域的最適に導くことを証明する。
参考スコア（独自算出の注目度）: 37.908159361149835
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Normalized gradient descent has shown substantial success in speeding up the convergence of exponentially-tailed loss functions (which includes exponential and logistic losses) on linear classifiers with separable data. In this paper, we go beyond linear models by studying normalized GD on two-layer neural nets. We prove for exponentially-tailed losses that using normalized GD leads to linear rate of convergence of the training loss to the global optimum if the iterates find an interpolating model. This is made possible by showing certain gradient self-boundedness conditions and a log-Lipschitzness property. We also study generalization of normalized GD for convex objectives via an algorithmic-stability analysis. In particular, we show that normalized GD does not overfit during training by establishing finite-time generalization bounds.
Abstract（参考訳）: 正規化勾配降下は、分離可能なデータを持つ線形分類器における指数的尾の損失関数(指数的および対数的損失を含む)の収束を加速することに成功した。本稿では,2層ニューラルネット上での正規化gdの研究により,線形モデルを超えている。我々は,正規化gdを用いた場合,イテレートが補間モデルを見つければ,トレーニング損失の線形収束率を大域的最適値に導くことを証明する。これは、一定の勾配自己境界条件と対数リプシッツ性を示すことによって可能となる。また, アルゴリズム安定性解析による凸対象の正規化GDの一般化についても検討した。特に、正規化gdは有限時間一般化境界を確立することでトレーニング中に過剰に適合しないことを示す。

関連論文リスト

The late-stage training dynamics of (stochastic) subgradient descent on homogeneous neural networks [2.1178416840822027]
均質ニューラルネットワークによる分類の設定について考察する。正規化SGD反復は、後期訓練において、正規化マージンの臨界点の集合に収束することを示す。
論文参考訳（メタデータ） (2025-02-08T19:09:16Z)
Convergence Analysis of Natural Gradient Descent for Over-parameterized Physics-Informed Neural Networks [3.680127959836384]
勾配勾配勾配(GD)や二次勾配勾配(SGD)のような一階法はニューラルネットワークのトレーニングに有効であることが証明されている。しかし, 2層ニューラルネットワークの学習におけるGDの学習速度は, サンプルサイズとグラム行列に依存しない。本稿では, 回帰問題である$L2$に対して, 学習率を$mathcalO(1)$から$mathcalO(1)$に改善できることを示す。
論文参考訳（メタデータ） (2024-08-01T14:06:34Z)
Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。 IGDは線形収束速度で大域的に最適解を収束することを示す。
論文参考訳（メタデータ） (2024-07-03T06:10:41Z)
The Implicit Bias of Batch Normalization in Linear Models and Two-layer Linear Convolutional Neural Networks [117.93273337740442]
勾配勾配勾配は、exp(-Omega(log2 t))$収束率でトレーニングデータ上の一様マージン分類器に収束することを示す。また、バッチ正規化はパッチワイドの均一なマージンに対して暗黙の偏りを持つことを示す。
論文参考訳（メタデータ） (2023-06-20T16:58:00Z)
Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文参考訳（メタデータ） (2022-11-02T16:39:42Z)
Benign Overfitting without Linearity: Neural Network Classifiers Trained by Gradient Descent for Noisy Linear Data [44.431266188350655]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文参考訳（メタデータ） (2022-02-11T23:04:00Z)
On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。理論的にも経験的にも二重降下現象を観察する。
論文参考訳（メタデータ） (2021-10-13T17:47:39Z)
Understanding the Generalization of Adam in Learning Neural Networks with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文参考訳（メタデータ） (2021-08-25T17:58:21Z)
Universal scaling laws in the gradient descent training of neural networks [10.508187462682308]
学習軌跡は,大きな訓練時間に明示的な境界によって特徴づけられることを示す。結果は,期待される損失に基づいて訓練された大規模ネットワークの進化のスペクトル解析に基づいている。
論文参考訳（メタデータ） (2021-05-02T16:46:38Z)
Fast Learning of Graph Neural Networks with Guaranteed Generalizability: One-hidden-layer Case [93.37576644429578]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから実際に学習する上で、近年大きな進歩を遂げている。回帰問題と二項分類問題の両方に隠れ層を持つGNNの理論的に基底的な一般化可能性解析を行う。
論文参考訳（メタデータ） (2020-06-25T00:45:52Z)
The Implicit Bias of Gradient Descent on Separable Data [44.98410310356165]
予測器は最大マージン(シャープマージンSVM)解の方向へ収束することを示す。これは、トレーニングエラーがゼロになった後もロジスティックまたはクロスエントロピー損失を最適化し続ける利点を説明するのに役立つ。
論文参考訳（メタデータ） (2017-10-27T21:47:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。