論文の概要: On the Neural Tangent Kernel of Deep Networks with Orthogonal
Initialization
- arxiv url: http://arxiv.org/abs/2004.05867v4
- Date: Wed, 21 Jul 2021 08:08:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 23:27:29.222736
- Title: On the Neural Tangent Kernel of Deep Networks with Orthogonal
Initialization
- Title(参考訳): 直交初期化を伴うディープネットワークのニューラルタンジェントカーネルについて
- Authors: Wei Huang and Weitao Du and Richard Yi Da Xu
- Abstract要約: 我々は,FCN (Fully Connected Networks) や畳み込みニューラルネットワーク (Convolutional Neural Networks, CNN) など,さまざまなアーキテクチャにおける超広帯域ネットワークのダイナミクスについて検討する。
- 参考スコア(独自算出の注目度): 18.424756271923524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevailing thinking is that orthogonal weights are crucial to enforcing
dynamical isometry and speeding up training. The increase in learning speed
that results from orthogonal initialization in linear networks has been
well-proven. However, while the same is believed to also hold for nonlinear
networks when the dynamical isometry condition is satisfied, the training
dynamics behind this contention have not been thoroughly explored. In this
work, we study the dynamics of ultra-wide networks across a range of
architectures, including Fully Connected Networks (FCNs) and Convolutional
Neural Networks (CNNs) with orthogonal initialization via neural tangent kernel
(NTK). Through a series of propositions and lemmas, we prove that two NTKs, one
corresponding to Gaussian weights and one to orthogonal weights, are equal when
the network width is infinite. Further, during training, the NTK of an
orthogonally-initialized infinite-width network should theoretically remain
constant. This suggests that the orthogonal initialization cannot speed up
training in the NTK (lazy training) regime, contrary to the prevailing
thoughts. In order to explore under what circumstances can orthogonality
accelerate training, we conduct a thorough empirical investigation outside the
NTK regime. We find that when the hyper-parameters are set to achieve a linear
regime in nonlinear activation, orthogonal initialization can improve the
learning speed with a large learning rate or large depth.
- Abstract(参考訳): 一般的な考え方は、直交重みは力学の等長化とトレーニングのスピードアップに不可欠であるということである。
線形ネットワークにおける直交初期化による学習速度の増加はよく証明されている。
しかし, 動的等尺条件が満たされた場合, 非線形ネットワークについても同様のことが考えられるが, この競合の背後にあるトレーニング力学は十分に解明されていない。
本研究では,ニューラルネットワーク(NTK)による直交初期化によるFCN(Fully Connected Networks)やCNN(Convolutional Neural Networks)など,さまざまなアーキテクチャにおける超広帯域ネットワークのダイナミクスについて検討する。
一連の命題と補題を通して、ネットワーク幅が無限であるときに、ガウス重みと直交重みに対応する2つのNTKが等しいことを証明する。
さらに、トレーニング中は、直交初期化無限幅ネットワークのNTKは理論的に一定である。
これは、直交初期化がNTK(lazy training)体制でのトレーニングをスピードアップできないことを示唆している。
直交学習を加速させる状況を探るため,NTK体制外における徹底的な実証調査を実施している。
非線形アクティベーションにおける線形状態を達成するためにハイパーパラメータが設定されると、直交初期化は学習速度を大きくして学習速度を向上させることができる。
関連論文リスト
- Feature Learning and Generalization in Deep Networks with Orthogonal Weights [1.7956122940209063]
独立なガウス分布からの数値的な重みを持つディープニューラルネットワークは臨界に調整することができる。
これらのネットワークは、ネットワークの深さとともに線形に成長する変動を示す。
行列のアンサンブルから得られるタン・アクティベーションと重みを持つ長方形のネットワークが、それに対応する事前アクティベーション・揺らぎを持つことを示す。
論文 参考訳(メタデータ) (2023-10-11T18:00:02Z) - Implicit regularization of deep residual networks towards neural ODEs [8.075122862553359]
我々は、ニューラルネットワークに対する深い残留ネットワークの暗黙的な正規化を確立する。
ネットワークがニューラルなODEの離散化であるなら、そのような離散化はトレーニングを通して維持される。
論文 参考訳(メタデータ) (2023-09-03T16:35:59Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z) - Provable Benefit of Orthogonal Initialization in Optimizing Deep Linear
Networks [39.856439772974454]
グローバル最小値への効率的な収束に必要な幅は, 深さに依存しないことを示す。
この結果から, 非線形ネットワークの初期化による最近の経験的成功について, 動的アイソメトリの原理による説明が得られた。
論文 参考訳(メタデータ) (2020-01-16T18:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。