論文の概要: On the Convergence of Shallow Neural Network Training with Randomly
Masked Neurons
- arxiv url: http://arxiv.org/abs/2112.02668v1
- Date: Sun, 5 Dec 2021 19:51:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 09:53:28.813060
- Title: On the Convergence of Shallow Neural Network Training with Randomly
Masked Neurons
- Title(参考訳): ランダムマスキングニューロンを用いた浅層ニューラルネットワーク訓練の収束について
- Authors: Fangshuo Liao, Anastasios Kyrillidis
- Abstract要約: 密度の浅いニューラルネットワークを前提として、ランダムに選択された関数の作成、トレーニング、組み合わせに重点を置いています。
i)$ theworks' Neural kernel, $ii)$ the surrogate function' gradient, and $iii)$ surrogate functionのサンプリングと組み合わせの仕方を解析することにより、トレーニングエラーの線形収束率を証明できる。
固定されたニューロン選択確率では、サロゲートモデルの数が増えるにつれて誤差項は減少し、局所的なトレーニングステップの数が増えるにつれて増加する。
- 参考スコア(独自算出の注目度): 11.119895959906085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given a dense shallow neural network, we focus on iteratively creating,
training, and combining randomly selected subnetworks (surrogate functions),
towards training the full model. By carefully analyzing $i)$ the subnetworks'
neural tangent kernel, $ii)$ the surrogate functions' gradient, and $iii)$ how
we sample and combine the surrogate functions, we prove linear convergence rate
of the training error -- within an error region -- for an overparameterized
single-hidden layer perceptron with ReLU activations for a regression task. Our
result implies that, for fixed neuron selection probability, the error term
decreases as we increase the number of surrogate models, and increases as we
increase the number of local training steps for each selected subnetwork. The
considered framework generalizes and provides new insights on dropout training,
multi-sample dropout training, as well as Independent Subnet Training; for each
case, we provide corresponding convergence results, as corollaries of our main
theorem.
- Abstract(参考訳): 密集した浅層ニューラルネットワークでは,ランダムに選択されたサブネットワーク(サーロゲート関数)を反復的に生成,トレーニングし,組み合わせて,モデル全体のトレーニングを行う。
i)$ the subnetworks' neural tangent kernel, $ii)$ the surrogate functions' gradient, and $iii)$ the surrogate functionsをサンプリングして結合する方法を慎重に分析することで、回帰タスクのためにreluアクティベーションを持つ過パラメータの単層パーセプトロンに対して、トレーニングエラーの線形収束率(エラー領域内)を証明します。
その結果、固定ニューロン選択確率では、サロゲートモデル数の増加に伴ってエラー項が減少し、選択されたサブネットワーク毎の局所トレーニングステップ数の増加とともに増加する。
検討されたフレームワークは,ドロップアウトトレーニング,マルチサンプルドロップアウトトレーニング,および独立サブネットトレーニングを一般化し,新たな知見を提供する。
関連論文リスト
- Benign Overfitting for Regression with Trained Two-Layer ReLU Networks [14.36840959836957]
本稿では,2層完全連結ニューラルネットワークを用いた最小二乗回帰問題と,勾配流によるReLU活性化関数について検討する。
最初の結果は一般化結果であり、基礎となる回帰関数や、それらが有界であること以外のノイズを仮定する必要はない。
論文 参考訳(メタデータ) (2024-10-08T16:54:23Z) - Learning a Neuron by a Shallow ReLU Network: Dynamics and Implicit Bias
for Correlated Inputs [5.7166378791349315]
我々は、単一ニューロンを学習する基本的な回帰タスクとして、1つの隠れた層ReLUネットワークをトレーニングすると、損失がゼロとなることを証明した。
また、最小ランクの補間ネットワークと最小ユークリッドノルムの補間ネットワークのこの設定において、驚くべき区別を示し、特徴付ける。
論文 参考訳(メタデータ) (2023-06-10T16:36:22Z) - Bayesian Federated Neural Matching that Completes Full Information [2.6566593102111473]
フェデレートラーニング(Federated Learning)は、局所的に訓練されたモデルをグローバルモデルに蒸留する機械学習パラダイムである。
そこで本研究では,各イテレーションでKulback-Leibler分散ペナルティを導入することで,この欠陥を克服する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-11-15T09:47:56Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - An alternative approach to train neural networks using monotone
variational inequality [22.320632565424745]
本稿では,モノトーンベクトル場を用いたニューラルネットワークトレーニングの代替手法を提案する。
我々のアプローチは、事前訓練されたニューラルネットワークのより効率的な微調整に利用できる。
論文 参考訳(メタデータ) (2022-02-17T19:24:20Z) - How does unlabeled data improve generalization in self-training? A
one-hidden-layer theoretical analysis [93.37576644429578]
この研究は、既知の反復的自己学習パラダイムに関する最初の理論的分析を確立する。
トレーニング収束と一般化能力の両面で、ラベルなしデータの利点を実証する。
また、浅部ニューラルネットワークから深部ニューラルネットワークへの実験は、我々の確立した自己学習に関する理論的知見の正しさを正当化するものである。
論文 参考訳(メタデータ) (2022-01-21T02:16:52Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - Local Critic Training for Model-Parallel Learning of Deep Neural
Networks [94.69202357137452]
そこで我々は,局所的批判訓練と呼ばれる新しいモデル並列学習手法を提案する。
提案手法は,畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の両方において,階層群の更新プロセスの分離に成功したことを示す。
また,提案手法によりトレーニングされたネットワークを構造最適化に利用できることを示す。
論文 参考訳(メタデータ) (2021-02-03T09:30:45Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。