論文の概要: A proof of convergence for stochastic gradient descent in the training
of artificial neural networks with ReLU activation for constant target
functions
- arxiv url: http://arxiv.org/abs/2104.00277v1
- Date: Thu, 1 Apr 2021 06:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:17:58.853230
- Title: A proof of convergence for stochastic gradient descent in the training
of artificial neural networks with ReLU activation for constant target
functions
- Title(参考訳): 一定の目標関数に対するReLUアクティベーションを持つ人工ニューラルネットワークのトレーニングにおける確率勾配降下の収束の証明
- Authors: Arnulf Jentzen, Adrian Riekert
- Abstract要約: ReLUアクティベーションを用いた完全接続フィードフォワード人工ニューラルネットワークのトレーニングにおける勾配降下(SGD)最適化法について検討する。
この研究の主な結果は、対象関数が定数であれば、SGD過程のリスクはゼロに収束することを証明している。
- 参考スコア(独自算出の注目度): 3.198144010381572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this article we study the stochastic gradient descent (SGD) optimization
method in the training of fully-connected feedforward artificial neural
networks with ReLU activation. The main result of this work proves that the
risk of the SGD process converges to zero if the target function under
consideration is constant. In the established convergence result the considered
artificial neural networks consist of one input layer, one hidden layer, and
one output layer (with $d \in \mathbb{N}$ neurons on the input layer, $H \in
\mathbb{N}$ neurons on the hidden layer, and one neuron on the output layer).
The learning rates of the SGD process are assumed to be sufficiently small and
the input data used in the SGD process to train the artificial neural networks
is assumed to be independent and identically distributed.
- Abstract(参考訳): 本稿では、ReLUを活性化した完全連結フィードフォワード人工ニューラルネットワークのトレーニングにおける確率勾配降下(SGD)最適化法について検討する。
この研究の主な結果は、対象関数が定数であれば、SGD過程のリスクはゼロに収束することを証明している。
確立された収束結果において、考慮された人工ニューラルネットワークは、1つの入力層、1つの隠れ層、1つの出力層で構成される(入力層に$d \in \mathbb{n}$ニューロン、隠れ層に$h \in \mathbb{n}$ニューロン、出力層に1つのニューロン)。
SGDプロセスの学習速度は十分に小さく、SGDプロセスで人工ニューラルネットワークを訓練するために使用される入力データは独立で同一の分散であると仮定する。
関連論文リスト
- Fractional-order spike-timing-dependent gradient descent for multi-layer spiking neural networks [18.142378139047977]
本稿では,数次スパイクタイピング依存勾配勾配(FOSTDGD)学習モデルを提案する。
TheNISTとDVS128 Gestureデータセットでテストし、その精度を異なるネットワーク構造と分数順序で分析する。
論文 参考訳(メタデータ) (2024-10-20T05:31:34Z) - Efficient SGD Neural Network Training via Sublinear Activated Neuron
Identification [22.361338848134025]
本稿では,ReLUの活性化をシフトする2層ニューラルネットワークについて,幾何学的探索によるサブ線形時間における活性化ニューロンの同定を可能にする。
また、我々のアルゴリズムは、係数ノルム上界$M$とエラー項$epsilon$の2次ネットワークサイズで$O(M2/epsilon2)$時間に収束できることを示す。
論文 参考訳(メタデータ) (2023-07-13T05:33:44Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Learning with Local Gradients at the Edge [14.94491070863641]
我々は、Target Projection Gradient Descent (tpSGD) と呼ばれる新しいバックプロパゲーションフリー最適化アルゴリズムを提案する。
tpSGDは、任意の損失関数を扱うために、直接ランダムターゲット射影を一般化する。
我々は、深層ニューラルネットワークのトレーニングにおけるtpSGDの性能を評価し、マルチ層RNNへのアプローチを拡張した。
論文 参考訳(メタデータ) (2022-08-17T19:51:06Z) - Convergence proof for stochastic gradient descent in the training of
deep neural networks with ReLU activation for constant target functions [1.7149364927872015]
勾配降下(SGD)型最適化法はディープニューラルネットワーク(DNN)の訓練において非常に効果的に機能する
本研究では,修正線形単位(ReLU)アクティベーションを備えた完全連結フィードフォワードDNNのトレーニングにおけるSGD型最適化手法について検討する。
論文 参考訳(メタデータ) (2021-12-13T11:45:36Z) - On the Convergence of Shallow Neural Network Training with Randomly
Masked Neurons [11.119895959906085]
密度の浅いニューラルネットワークを前提として、ランダムに選択された関数の作成、トレーニング、組み合わせに重点を置いています。
i)$ theworks' Neural kernel, $ii)$ the surrogate function' gradient, and $iii)$ surrogate functionのサンプリングと組み合わせの仕方を解析することにより、トレーニングエラーの線形収束率を証明できる。
固定されたニューロン選択確率では、サロゲートモデルの数が増えるにつれて誤差項は減少し、局所的なトレーニングステップの数が増えるにつれて増加する。
論文 参考訳(メタデータ) (2021-12-05T19:51:14Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Exploiting Heterogeneity in Operational Neural Networks by Synaptic
Plasticity [87.32169414230822]
最近提案されたネットワークモデルであるオペレーショナルニューラルネットワーク(ONN)は、従来の畳み込みニューラルネットワーク(CNN)を一般化することができる。
本研究では, 生体ニューロンにおける本質的な学習理論を示すSynaptic Plasticityパラダイムに基づいて, ネットワークの隠蔽ニューロンに対する最強演算子集合の探索に焦点をあてる。
高難易度問題に対する実験結果から、神経細胞や層が少なくても、GISベースのONNよりも優れた学習性能が得られることが示された。
論文 参考訳(メタデータ) (2020-08-21T19:03:23Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。