論文の概要: Why Learning of Large-Scale Neural Networks Behaves Like Convex
Optimization
- arxiv url: http://arxiv.org/abs/1903.02140v2
- Date: Thu, 27 Apr 2023 18:51:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 18:20:50.956657
- Title: Why Learning of Large-Scale Neural Networks Behaves Like Convex
Optimization
- Title(参考訳): 大規模ニューラルネットワークの学習が凸最適化に類似する理由
- Authors: Hui Jiang
- Abstract要約: 非スケール最適化問題の解法として単純な勾配降下法が成功した理由を説明するための理論的研究について述べる。
NN学習の目的関数が標準モデル空間の凸であることを示す。
- 参考スコア(独自算出の注目度): 6.852561400929072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present some theoretical work to explain why simple
gradient descent methods are so successful in solving non-convex optimization
problems in learning large-scale neural networks (NN). After introducing a
mathematical tool called canonical space, we have proved that the objective
functions in learning NNs are convex in the canonical model space. We further
elucidate that the gradients between the original NN model space and the
canonical space are related by a pointwise linear transformation, which is
represented by the so-called disparity matrix. Furthermore, we have proved that
gradient descent methods surely converge to a global minimum of zero loss
provided that the disparity matrices maintain full rank. If this full-rank
condition holds, the learning of NNs behaves in the same way as normal convex
optimization. At last, we have shown that the chance to have singular disparity
matrices is extremely slim in large NNs. In particular, when over-parameterized
NNs are randomly initialized, the gradient decent algorithms converge to a
global minimum of zero loss in probability.
- Abstract(参考訳): 本稿では,大規模ニューラルネットワーク(NN)学習における非凸最適化問題の解法として,単純な勾配降下法が成功した理由を説明するための理論的研究について述べる。
標準空間(canonical space)と呼ばれる数学的ツールを導入し、NN学習の目的関数が標準モデル空間の凸であることを示した。
さらに、元の NN モデル空間と標準空間の間の勾配が、いわゆる不等式行列で表される点方向の線形変換によって関連していることを解明する。
さらに,不均一行列が完全ランクを維持している場合,勾配降下法が全球最小零損失に確実に収束することが証明された。
このフルランク条件が成立すると、NNの学習は通常の凸最適化と同じように振る舞う。
最終的に、特異な不等式行列を持つ機会は、大きなnnでは極めて小さいことが判明した。
特に、過パラメータ化NNがランダムに初期化されると、グラデーションリーなアルゴリズムは確率におけるゼロ損失の最小値に収束する。
関連論文リスト
- Matrix Completion via Nonsmooth Regularization of Fully Connected Neural Networks [7.349727826230864]
ディープニューラルネットワークのような非線形推定器を使うことで、性能の向上が達成できることが示されている。
本稿では,標準中間表現の観点から,FCNNモデルの正規化によるオーバーフィット制御を行う。
本シミュレーションは,既存の線形および非線形アルゴリズムと比較して,提案アルゴリズムの優位性を示す。
論文 参考訳(メタデータ) (2024-03-15T12:00:37Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Implicit regularization in AI meets generalized hardness of
approximation in optimization -- Sharp results for diagonal linear networks [0.0]
直交線形ネットワークの勾配流による暗黙の正規化について, 鋭い結果を示す。
これを近似の一般化硬度における相転移現象と関連付ける。
結果の非シャープ性は、基礎追従最適化問題に対して、GHA現象が起こらないことを意味する。
論文 参考訳(メタデータ) (2023-07-13T13:27:51Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Improved Overparametrization Bounds for Global Convergence of Stochastic
Gradient Descent for Shallow Neural Networks [1.14219428942199]
本研究では,1つの隠れ層フィードフォワードニューラルネットワークのクラスに対して,勾配降下アルゴリズムのグローバル収束に必要な過パラメトリゼーション境界について検討する。
論文 参考訳(メタデータ) (2022-01-28T11:30:06Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Loss landscapes and optimization in over-parameterized non-linear
systems and neural networks [20.44438519046223]
広域ニューラルネットワークがPL$*$条件を満たすことを示し、(S)GD収束を大域最小値に説明する。
広域ニューラルネットワークがPL$*$条件を満たすことを示し、(S)GD収束を大域最小値に説明する。
論文 参考訳(メタデータ) (2020-02-29T17:18:28Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。