論文の概要: A Local Convergence Theory for Mildly Over-Parameterized Two-Layer
Neural Network
- arxiv url: http://arxiv.org/abs/2102.02410v1
- Date: Thu, 4 Feb 2021 04:41:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 16:44:08.488667
- Title: A Local Convergence Theory for Mildly Over-Parameterized Two-Layer
Neural Network
- Title(参考訳): 極小超パラメータ二層ニューラルネットワークの局所収束理論
- Authors: Mo Zhou, Rong Ge, Chi Jin
- Abstract要約: 軽度のパラメータ化ニューラルネットワークに対する局所収束理論を考案する。
損失がすでに閾値よりも低い限り、すべての学生ニューロンは教師ニューロンの1つに収束する。
我々の結果は、少なくとも教師のニューロンの数と同じくらいの大きさである限り、任意の数の学生ニューロンに当てはまる。
- 参考スコア(独自算出の注目度): 39.341620528427306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While over-parameterization is widely believed to be crucial for the success
of optimization for the neural networks, most existing theories on
over-parameterization do not fully explain the reason -- they either work in
the Neural Tangent Kernel regime where neurons don't move much, or require an
enormous number of neurons. In practice, when the data is generated using a
teacher neural network, even mildly over-parameterized neural networks can
achieve 0 loss and recover the directions of teacher neurons. In this paper we
develop a local convergence theory for mildly over-parameterized two-layer
neural net. We show that as long as the loss is already lower than a threshold
(polynomial in relevant parameters), all student neurons in an
over-parameterized two-layer neural network will converge to one of teacher
neurons, and the loss will go to 0. Our result holds for any number of student
neurons as long as it is at least as large as the number of teacher neurons,
and our convergence rate is independent of the number of student neurons. A key
component of our analysis is the new characterization of local optimization
landscape -- we show the gradient satisfies a special case of Lojasiewicz
property which is different from local strong convexity or PL conditions used
in previous work.
- Abstract(参考訳): 過剰なパラメータ化はニューラルネットワークの最適化の成功に不可欠だと広く考えられているが、既存の過剰なパラメータ化の理論のほとんどは、その理由を完全に説明していない。
実際には、教師ニューラルネットワークを用いてデータが生成される場合、わずかに過度にパラメータ化されたニューラルネットワークでも0損失を達成し、教師ニューロンの方向を回復することができる。
本稿では,軽度過パラメータ2層ニューラルネットの局所収束理論を考案する。
我々は、損失が既に閾値よりも低い限り(関連するパラメータではポリノミカル)、過度にパラメータ化された2層ニューラルネットワークの全ての学生ニューロンが教師ニューロンの1つに収束し、損失は0。
私たちの結果は、教師ニューロンの数よりも少なくとも大きい限り、学生ニューロンの任意の数を保持し、私たちの収束率は、学生ニューロンの数から独立しています。
我々の分析の重要な要素は、局所最適化景観の新たなキャラクタリゼーションです -- 前の研究で使われた局所強い凸性やpl条件とは異なる、lojasiewicz特性の特別なケースを満たす勾配を示します。
関連論文リスト
- Decorrelating neurons using persistence [29.25969187808722]
2つの正規化項は、クリッドの最小スパンニングツリーの重みから計算される。
ニューロン間の相関関係を最小化することで、正規化条件よりも低い精度が得られることを示す。
正規化の可微分性の証明を含むので、最初の効果的なトポロジカルな永続性に基づく正規化用語を開発することができる。
論文 参考訳(メタデータ) (2023-08-09T11:09:14Z) - Spiking neural network for nonlinear regression [68.8204255655161]
スパイクニューラルネットワークは、メモリとエネルギー消費を大幅に削減する可能性を持っている。
彼らは、次世代のニューロモルフィックハードウェアによって活用できる時間的および神経的疎結合を導入する。
スパイキングニューラルネットワークを用いた回帰フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-06T13:04:45Z) - Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a
Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。
本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。
我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文 参考訳(メタデータ) (2022-09-16T06:36:06Z) - Consistency of Neural Networks with Regularization [0.0]
本稿では,ニューラルネットワークの規則化による一般的な枠組みを提案し,その一貫性を実証する。
双曲関数(Tanh)と整形線形単位(ReLU)の2種類の活性化関数が検討されている。
論文 参考訳(メタデータ) (2022-06-22T23:33:39Z) - Excess Risk of Two-Layer ReLU Neural Networks in Teacher-Student
Settings and its Superiority to Kernel Methods [58.44819696433327]
教師回帰モデルにおける2層ReLUニューラルネットワークのリスクについて検討する。
学生ネットワークは、どの解法よりも確実に優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-30T02:51:36Z) - Optimal Learning Rates of Deep Convolutional Neural Networks: Additive
Ridge Functions [19.762318115851617]
深部畳み込みニューラルネットワークにおける平均2乗誤差解析について考察する。
付加的なリッジ関数に対しては、畳み込みニューラルネットワークとReLUアクティベーション関数を併用した1つの完全連結層が最適極小値に到達できることが示される。
論文 参考訳(メタデータ) (2022-02-24T14:22:32Z) - Improving Spiking Neural Network Accuracy Using Time-based Neurons [0.24366811507669117]
アナログニューロンを用いた低消費電力スパイクニューラルネットワークに基づくニューロモルフィックコンピューティングシステムの研究が注目されている。
技術のスケールダウンに伴い、アナログニューロンはスケールが難しく、電圧ヘッドルーム/ダイナミックレンジの減少と回路の非線形性に悩まされる。
本稿では,28nmプロセスで設計した既存の電流ミラー型電圧ドメインニューロンの非線形挙動をモデル化し,ニューロンの非線形性の影響によりSNN推定精度を著しく劣化させることができることを示す。
本稿では,時間領域のスパイクを処理し,線形性を大幅に向上させる新しいニューロンを提案する。
論文 参考訳(メタデータ) (2022-01-05T00:24:45Z) - SeReNe: Sensitivity based Regularization of Neurons for Structured
Sparsity in Neural Networks [13.60023740064471]
SeReNeはスパーストポロジを構造で学習する方法である。
ニューロンの感度をネットワーク出力の変動として定義する。
コスト関数のニューロン感度を正規化用語に含めることで、低感度でニューロンをプーンすることができる。
論文 参考訳(メタデータ) (2021-02-07T10:53:30Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。