論文の概要: Existence, uniqueness, and convergence rates for gradient flows in the
training of artificial neural networks with ReLU activation
- arxiv url: http://arxiv.org/abs/2108.08106v1
- Date: Wed, 18 Aug 2021 12:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-19 14:24:48.939772
- Title: Existence, uniqueness, and convergence rates for gradient flows in the
training of artificial neural networks with ReLU activation
- Title(参考訳): ReLUアクティベーションを有する人工ニューラルネットワークのトレーニングにおける勾配流の存在, 特異性, 収束率
- Authors: Simon Eberle, Arnulf Jentzen, Adrian Riekert, Georg S. Weiss
- Abstract要約: 勾配降下(GD)型最適化スキームによる整流線形単位(ReLU)アクティベーションを用いた人工ニューラルネットワーク(ANN)のトレーニングは、今日では産業的にも一般的な方法である。
科学文献では、ReLUアクティベーションを伴うANNのトレーニングにおいて、GD型スキームの数値的な成功を説明する数学的収束解析は一般的に存在しない。
- 参考スコア(独自算出の注目度): 2.4087148947930634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The training of artificial neural networks (ANNs) with rectified linear unit
(ReLU) activation via gradient descent (GD) type optimization schemes is
nowadays a common industrially relevant procedure. Till this day in the
scientific literature there is in general no mathematical convergence analysis
which explains the numerical success of GD type optimization schemes in the
training of ANNs with ReLU activation. GD type optimization schemes can be
regarded as temporal discretization methods for the gradient flow (GF)
differential equations associated to the considered optimization problem and,
in view of this, it seems to be a natural direction of research to first aim to
develop a mathematical convergence theory for time-continuous GF differential
equations and, thereafter, to aim to extend such a time-continuous convergence
theory to implementable time-discrete GD type optimization methods. In this
article we establish two basic results for GF differential equations in the
training of fully-connected feedforward ANNs with one hidden layer and ReLU
activation. In the first main result of this article we establish in the
training of such ANNs under the assumption that the probability distribution of
the input data of the considered supervised learning problem is absolutely
continuous with a bounded density function that every GF differential equation
admits for every initial value a solution which is also unique among a suitable
class of solutions. In the second main result of this article we prove in the
training of such ANNs under the assumption that the target function and the
density function of the probability distribution of the input data are
piecewise polynomial that every non-divergent GF trajectory converges with an
appropriate rate of convergence to a critical point and that the risk of the
non-divergent GF trajectory converges with rate 1 to the risk of the critical
point.
- Abstract(参考訳): 勾配降下(GD)型最適化スキームによる整流線形単位(ReLU)アクティベーションを用いた人工ニューラルネットワーク(ANN)のトレーニングは、今日では産業的にも一般的な方法である。
科学文献では、ReLUアクティベーションを伴うANNのトレーニングにおいて、GD型最適化スキームの数値的な成功を説明する数学的収束解析は一般的に存在しない。
GD型最適化スキームは、検討された最適化問題に関連する勾配流(GF)微分方程式の時間的離散化法とみなすことができ、この観点からは、まず、時間連続GF微分方程式の数学的収束理論を開発し、その後、そのような時間連続GD型最適化理論を実装可能な時間離散GD型最適化法に拡張することを目的とした研究の自然な方向であると考えられる。
本稿では,全連結フィードフォワード ann の学習における gf 微分方程式の2つの基礎的結果と relu 活性化について述べる。
本論文の第一の主結果では,教師付き学習問題の入力データの確率分布が,各gf微分方程式が各初期値に対して許容する有界密度関数により絶対連続であるという仮定のもとに,そのようなアンスの訓練を行う。
本論文の第2の主旨は、入力データの確率分布の目標関数と密度関数が分割多項式であり、すべての非分散gf軌道が適切な収束率で臨界点に収束し、非分散gf軌道のリスクが臨界点のリスクに率1に収束するということを仮定して、そのようなアンスを訓練することである。
関連論文リスト
- A model-constrained Discontinuous Galerkin Network (DGNet) for Compressible Euler Equations with Out-of-Distribution Generalization [0.0]
圧縮可能なオイラー方程式を解くために,モデル制約付き不連続なGalerkin Network (DGNet) アプローチを開発した。
DGNet法の有効性, 安定性, 一般化性を検証するため, 1次元および2次元圧縮可能なオイラー方程式問題に対する数値計算結果を提案する。
論文 参考訳(メタデータ) (2024-09-27T01:13:38Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - On the existence of global minima and convergence analyses for gradient
descent methods in the training of deep neural networks [3.198144010381572]
フィードフォワード深層ReLU ANNを任意に多数の隠蔽層で研究する。
我々は,そのようなANNの訓練において,ランダムなGD最適化手法のリスクを収束させることを証明した。
また、勾配流微分方程式の解も研究する。
論文 参考訳(メタデータ) (2021-12-17T18:55:40Z) - Convergence proof for stochastic gradient descent in the training of
deep neural networks with ReLU activation for constant target functions [1.7149364927872015]
勾配降下(SGD)型最適化法はディープニューラルネットワーク(DNN)の訓練において非常に効果的に機能する
本研究では,修正線形単位(ReLU)アクティベーションを備えた完全連結フィードフォワードDNNのトレーニングにおけるSGD型最適化手法について検討する。
論文 参考訳(メタデータ) (2021-12-13T11:45:36Z) - A proof of convergence for the gradient descent optimization method with
random initializations in the training of neural networks with ReLU
activation for piecewise linear target functions [3.198144010381572]
勾配降下(GD)型最適化法は、ニューラルネットワーク(ANN)を修正線形単位(ReLU)アクティベーションで訓練する標準的な手法である。
論文 参考訳(メタデータ) (2021-08-10T12:01:37Z) - Convergence analysis for gradient flows in the training of artificial
neural networks with ReLU activation [3.198144010381572]
勾配降下(GD)型最適化スキームは、ニューラルネットワーク(ANN)を修正線形単位(ReLU)アクティベーションで訓練する標準的な方法である。
ReLUアクティベーションを持つANNのトレーニングにおけるGD型最適化スキームの数学的収束解析における主な困難は、すでに対応するGF微分方程式の力学に存在しているようである。
論文 参考訳(メタデータ) (2021-07-09T15:08:30Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。