論文の概要: A Dynamical View on Optimization Algorithms of Overparameterized Neural
Networks
- arxiv url: http://arxiv.org/abs/2010.13165v2
- Date: Wed, 10 Mar 2021 17:28:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 04:30:49.000877
- Title: A Dynamical View on Optimization Algorithms of Overparameterized Neural
Networks
- Title(参考訳): 過パラメータニューラルネットワークの最適化アルゴリズムに関する動的考察
- Authors: Zhiqi Bu, Shiyun Xu, Kan Chen
- Abstract要約: 我々は、一般的に使用される最適化アルゴリズムの幅広いクラスについて考察する。
その結果、ニューラルネットワークの収束挙動を利用することができる。
このアプローチは他の最適化アルゴリズムやネットワーク理論にも拡張できると考えています。
- 参考スコア(独自算出の注目度): 23.038631072178735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When equipped with efficient optimization algorithms, the over-parameterized
neural networks have demonstrated high level of performance even though the
loss function is non-convex and non-smooth. While many works have been focusing
on understanding the loss dynamics by training neural networks with the
gradient descent (GD), in this work, we consider a broad class of optimization
algorithms that are commonly used in practice. For example, we show from a
dynamical system perspective that the Heavy Ball (HB) method can converge to
global minimum on mean squared error (MSE) at a linear rate (similar to GD);
however, the Nesterov accelerated gradient descent (NAG) may only converges to
global minimum sublinearly.
Our results rely on the connection between neural tangent kernel (NTK) and
finite over-parameterized neural networks with ReLU activation, which leads to
analyzing the limiting ordinary differential equations (ODE) for optimization
algorithms. We show that, optimizing the non-convex loss over the weights
corresponds to optimizing some strongly convex loss over the prediction error.
As a consequence, we can leverage the classical convex optimization theory to
understand the convergence behavior of neural networks. We believe our approach
can also be extended to other optimization algorithms and network
architectures.
- Abstract(参考訳): 効率的な最適化アルゴリズムを備えると、損失関数が非凸かつ非滑らかであっても、過パラメータ化されたニューラルネットワークは高い性能を示す。
勾配降下(gd)を用いたニューラルネットワークの学習による損失ダイナミクスの理解に多くの研究が注力してきたが、本研究では一般に用いられる幅広い最適化アルゴリズムを考察する。
例えば、力学系の観点からは、重ボール法(HB法)は平均二乗誤差(MSE法)を線形速度(GD法と類似)で収束させることができるが、ネステロフ加速勾配勾配(NAG法)は平均二乗誤差(MSE法)に収束するのみである。
この結果は、ニューラルネットワークとReLUアクティベーションによる有限過パラメータニューラルネットワークの接続に依存しており、最適化アルゴリズムの制限された常微分方程式(ODE)の解析に繋がる。
重みに対する非凸損失の最適化は、予測誤差に対する強い凸損失の最適化と一致することを示す。
その結果,古典凸最適化理論を応用して,ニューラルネットワークの収束挙動を理解することができる。
このアプローチは他の最適化アルゴリズムやネットワークアーキテクチャにも拡張できると考えています。
関連論文リスト
- Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。
IGDは線形収束速度で大域的に最適解を収束することを示す。
論文 参考訳(メタデータ) (2024-07-03T06:10:41Z) - Improving Generalization of Deep Neural Networks by Optimum Shifting [33.092571599896814]
本稿では,ニューラルネットワークのパラメータを最小値からフラット値に変化させる,近位シフトと呼ばれる新しい手法を提案する。
本手法は,ニューラルネットワークの入力と出力が固定された場合,ネットワーク内の行列乗算を,未決定線形方程式系として扱うことができることを示す。
論文 参考訳(メタデータ) (2024-05-23T02:31:55Z) - Regularized Gauss-Newton for Optimizing Overparameterized Neural Networks [2.0072624123275533]
一般化されたガウスニュートン(GGN)最適化法は、曲率推定を解法に組み込む。
本研究では、2層ニューラルネットワークを明示的な正規化で最適化するGGN法について検討する。
論文 参考訳(メタデータ) (2024-04-23T10:02:22Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - AskewSGD : An Annealed interval-constrained Optimisation method to train
Quantized Neural Networks [12.229154524476405]
我々は、深層ニューラルネットワーク(DNN)を量子化重みでトレーニングするための新しいアルゴリズム、Annealed Skewed SGD - AskewSGDを開発した。
アクティブなセットと実行可能な方向を持つアルゴリズムとは異なり、AskewSGDは実行可能な全セットの下でのプロジェクションや最適化を避けている。
実験結果から,AskewSGDアルゴリズムは古典的ベンチマークの手法と同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-11-07T18:13:44Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - The Hidden Convex Optimization Landscape of Two-Layer ReLU Neural
Networks: an Exact Characterization of the Optimal Solutions [51.60996023961886]
コーン制約のある凸最適化プログラムを解くことにより,グローバルな2層ReLUニューラルネットワークの探索が可能であることを示す。
我々の分析は新しく、全ての最適解を特徴づけ、最近、ニューラルネットワークのトレーニングを凸空間に持ち上げるために使われた双対性に基づく分析を活用できない。
論文 参考訳(メタデータ) (2020-06-10T15:38:30Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Loss landscapes and optimization in over-parameterized non-linear
systems and neural networks [20.44438519046223]
広域ニューラルネットワークがPL$*$条件を満たすことを示し、(S)GD収束を大域最小値に説明する。
広域ニューラルネットワークがPL$*$条件を満たすことを示し、(S)GD収束を大域最小値に説明する。
論文 参考訳(メタデータ) (2020-02-29T17:18:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。