論文の概要: Convergence rates for gradient descent in the training of
overparameterized artificial neural networks with biases
- arxiv url: http://arxiv.org/abs/2102.11840v1
- Date: Tue, 23 Feb 2021 18:17:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 13:44:20.803043
- Title: Convergence rates for gradient descent in the training of
overparameterized artificial neural networks with biases
- Title(参考訳): バイアスを有する過パラメータ人工ニューラルネットワークのトレーニングにおける勾配降下の収束率
- Authors: Arnulf Jentzen, Timo Kr\"oger
- Abstract要約: 近年、人工ニューラルネットワークは、古典的なソリューションが近づいている多数の問題に対処するための強力なツールに発展しています。
ランダムな勾配降下アルゴリズムが限界に達する理由はまだ不明である。
- 参考スコア(独自算出の注目度): 3.198144010381572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, artificial neural networks have developed into a powerful
tool for dealing with a multitude of problems for which classical solution
approaches reach their limits. However, it is still unclear why randomly
initialized gradient descent optimization algorithms, such as the well-known
batch gradient descent, are able to achieve zero training loss in many
situations even though the objective function is non-convex and non-smooth. One
of the most promising approaches to solving this problem in the field of
supervised learning is the analysis of gradient descent optimization in the
so-called overparameterized regime. In this article we provide a further
contribution to this area of research by considering overparameterized
fully-connected rectified artificial neural networks with biases. Specifically,
we show that for a fixed number of training data the mean squared error using
batch gradient descent optimization applied to such a randomly initialized
artificial neural network converges to zero at a linear convergence rate as
long as the width of the artificial neural network is large enough, the
learning rate is small enough, and the training input data are pairwise
linearly independent.
- Abstract(参考訳): 近年、人工ニューラルネットワークは、古典的なソリューションのアプローチが限界に達する多数の問題に対処するための強力なツールに発展しています。
しかし、目的関数が凸かつ非スムースであっても、よく知られたバッチ勾配降下のようなランダムに初期化された勾配降下最適化アルゴリズムが、多くの状況でトレーニング損失をゼロにできる理由はまだ不明である。
教師付き学習の分野でこの問題を解決する最も有望なアプローチの1つは、いわゆる過パラメータ化体制における勾配降下最適化の分析である。
本稿では,偏りのある過パラメータ化完全連結型人工ニューラルネットワークについて検討し,この研究分野へのさらなる貢献を提供する。
具体的には、一定数のトレーニングデータに対して、ランダムに初期化されたニューラルネットワークに適用したバッチ勾配降下最適化を用いた平均二乗誤差が、ニューラルネットワークの幅が十分大きい場合、線形収束率でゼロに収束し、学習レートが十分に小さく、トレーニング入力データが一対一独立であることを示す。
関連論文リスト
- Correlations Are Ruining Your Gradient Descent [1.2432046687586285]
自然勾配降下は、最も急勾配の方向を示す勾配ベクトルが、損失景観の局所曲率を考慮することにより、どのように改善されるかを照らしている。
ニューラルネットワークの各層におけるノード応答を含む,任意の線形変換におけるデータの相関が,モデルパラメータ間の非正規的関係を生じさせることを示す。
多層ニューラルネットワーク内でのデコリレーションを実装することで、バックプロパゲーションによるトレーニングが著しく増加しているだけでなく、過去に破滅的に失敗したバックプロパゲーションの既存の近似が再び実行されたことを示すことができる。
論文 参考訳(メタデータ) (2024-07-15T14:59:43Z) - Approximation and Gradient Descent Training with Neural Networks [0.0]
最近の研究は、ニューラル・タンジェント・カーネル(NTK)最適化の議論を過度にパラメータ化された状態に拡張している。
本稿では,勾配降下法により学習したネットワークの類似性を示す。
論文 参考訳(メタデータ) (2024-05-19T23:04:09Z) - Scalable Bayesian Inference in the Era of Deep Learning: From Gaussian Processes to Deep Neural Networks [0.5827521884806072]
大規模なデータセットでトレーニングされた大規模なニューラルネットワークは、マシンラーニングの主要なパラダイムになっています。
この論文は、モデル不確実性を持つニューラルネットワークを装備するためのスケーラブルな手法を開発する。
論文 参考訳(メタデータ) (2024-04-29T23:38:58Z) - Neural Network-Based Score Estimation in Diffusion Models: Optimization
and Generalization [12.812942188697326]
拡散モデルは、忠実さ、柔軟性、堅牢性を改善した高品質なサンプルを生成する際に、GANと競合する強力なツールとして登場した。
これらのモデルの主要な構成要素は、スコアマッチングを通じてスコア関数を学ぶことである。
様々なタスクにおいて経験的な成功にもかかわらず、勾配に基づくアルゴリズムが証明可能な精度でスコア関数を学習できるかどうかは不明である。
論文 参考訳(メタデータ) (2024-01-28T08:13:56Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Non-Gradient Manifold Neural Network [79.44066256794187]
ディープニューラルネットワーク(DNN)は通常、勾配降下による最適化に数千のイテレーションを要します。
非次最適化に基づく新しい多様体ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T06:39:13Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。