論文の概要: Global Convergence and Geometric Characterization of Slow to Fast Weight
Evolution in Neural Network Training for Classifying Linearly Non-Separable
Data
- arxiv url: http://arxiv.org/abs/2002.12563v3
- Date: Thu, 10 Dec 2020 08:50:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 01:56:57.502500
- Title: Global Convergence and Geometric Characterization of Slow to Fast Weight
Evolution in Neural Network Training for Classifying Linearly Non-Separable
Data
- Title(参考訳): 線形非分離データ分類のためのニューラルネットワーク学習における低速から高速なウェイト進化のグローバル収束と幾何学的特徴
- Authors: Ziang Long and Penghang Yin and Jack Xin
- Abstract要約: 分類問題に対する学習ニューラルネットワークにおける勾配降下のダイナミクスについて検討する。
ネットワークに十分な数のニューロンが存在する場合、対応する最小化問題は望ましいランドスケープを持つことを示す。
- 参考スコア(独自算出の注目度): 3.158346511479111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the dynamics of gradient descent in learning neural
networks for classification problems. Unlike in existing works, we consider the
linearly non-separable case where the training data of different classes lie in
orthogonal subspaces. We show that when the network has sufficient (but not
exceedingly large) number of neurons, (1) the corresponding minimization
problem has a desirable landscape where all critical points are global minima
with perfect classification; (2) gradient descent is guaranteed to converge to
the global minima. Moreover, we discovered a geometric condition on the network
weights so that when it is satisfied, the weight evolution transitions from a
slow phase of weight direction spreading to a fast phase of weight convergence.
The geometric condition says that the convex hull of the weights projected on
the unit sphere contains the origin.
- Abstract(参考訳): 本稿では,分類問題に対するニューラルネットワーク学習における勾配降下のダイナミクスについて検討する。
既存の研究とは異なり、異なるクラスのトレーニングデータが直交部分空間に置かれる線形に非分離なケースを考える。
ネットワークに十分な数のニューロンが存在する場合,(1) 対応する最小化問題は,すべての臨界点が完全分類された大域最小値である所望の景観を持ち,(2) 勾配降下は大域最小値に収束することが保証されることを示す。
さらに, ネットワークウェイトの幾何学的条件を見出し, 満足すると, 重みの進行速度の遅い位相から重みの収束の速い段階へと重みの進化が遷移することを示した。
幾何学的条件は、単位球面上に射影される重みの凸包が原点を含むことを意味する。
関連論文リスト
- Early Directional Convergence in Deep Homogeneous Neural Networks for
Small Initializations [2.310288676109785]
本稿では、深部均一性ニューラルネットワークのトレーニング時に発生する勾配流れのダイナミクスについて検討する。
ニューラルネットワークの重みは標準では小さく、カルーシュ=クーン=タッカー点に沿ってほぼ収束している。
論文 参考訳(メタデータ) (2024-03-12T23:17:32Z) - Directional Convergence Near Small Initializations and Saddles in Two-Homogeneous Neural Networks [1.9556053645976448]
本稿では, 2-同次ニューラルネットの勾配流ダイナミクスを小型初期化のために検討する。
正方損失のために、ニューラルネットワークは原点に近いときにサドル・アンド・サドル力学を実行する。
このことから,本論文では,あるサドル点近傍において,小さな大きさの重み間でも同様の方向収束性を示す。
論文 参考訳(メタデータ) (2024-02-14T15:10:37Z) - From Complexity to Clarity: Analytical Expressions of Deep Neural Network Weights via Clifford's Geometric Algebra and Convexity [54.01594785269913]
我々は,標準正規化損失のトレーニングにおいて,深部ReLUニューラルネットワークの最適重みがトレーニングサンプルのウェッジ積によって与えられることを示した。
トレーニング問題は、トレーニングデータセットの幾何学的構造をエンコードするウェッジ製品機能よりも凸最適化に還元される。
論文 参考訳(メタデータ) (2023-09-28T15:19:30Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Collapse in Deep Linear Networks: From Balanced to Imbalanced
Data [12.225207401994737]
大量のパラメータを持つ複雑な系は、収束するまでのトレーニングで同じ構造を持つことを示す。
特に、最終層の特徴がクラス平均に崩壊することが観察されている。
本結果は,最終層の特徴と分類器をベクトルからなる幾何学へ収束させることを示す。
論文 参考訳(メタデータ) (2023-01-01T16:29:56Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Convergence of gradient descent for deep neural networks [7.360807642941713]
勾配降下は「深層学習革命」の主要な要因の1つである
本稿では、勾配降下の収束の新たな基準を、大域的最小値に提示する。
論文 参考訳(メタデータ) (2022-03-30T17:01:14Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Deep Networks Provably Classify Data on Curves [12.309532551321334]
本研究では, 完全連結ニューラルネットワークを用いて, 単位球上の2つの不連続な滑らかな曲線から引き出されたデータを分類するモデル問題について検討する。
i) ネットワーク深度が問題の難易度と (ii) ネットワーク幅と標本数に固有の性質に比例すると, ランダムな勾配降下は2つの曲線上のすべての点を高い確率で正しく分類する。
論文 参考訳(メタデータ) (2021-07-29T20:40:04Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。