論文の概要: Feature Learning and Generalization in Deep Networks with Orthogonal Weights
- arxiv url: http://arxiv.org/abs/2310.07765v2
- Date: Wed, 12 Jun 2024 14:57:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 23:33:02.630990
- Title: Feature Learning and Generalization in Deep Networks with Orthogonal Weights
- Title(参考訳): 直交重みを持つ深層ネットワークにおける特徴学習と一般化
- Authors: Hannah Day, Yonatan Kahn, Daniel A. Roberts,
- Abstract要約: 独立なガウス分布からの数値的な重みを持つディープニューラルネットワークは臨界に調整することができる。
これらのネットワークは、ネットワークの深さとともに線形に成長する変動を示す。
行列のアンサンブルから得られるタン・アクティベーションと重みを持つ長方形のネットワークが、それに対応する事前アクティベーション・揺らぎを持つことを示す。
- 参考スコア(独自算出の注目度): 1.7956122940209063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fully-connected deep neural networks with weights initialized from independent Gaussian distributions can be tuned to criticality, which prevents the exponential growth or decay of signals propagating through the network. However, such networks still exhibit fluctuations that grow linearly with the depth of the network, which may impair the training of networks with width comparable to depth. We show analytically that rectangular networks with tanh activations and weights initialized from the ensemble of orthogonal matrices have corresponding preactivation fluctuations which are independent of depth, to leading order in inverse width. Moreover, we demonstrate numerically that, at initialization, all correlators involving the neural tangent kernel (NTK) and its descendants at leading order in inverse width -- which govern the evolution of observables during training -- saturate at a depth of $\sim 20$, rather than growing without bound as in the case of Gaussian initializations. We speculate that this structure preserves finite-width feature learning while reducing overall noise, thus improving both generalization and training speed in deep networks with depth comparable to width. We provide some experimental justification by relating empirical measurements of the NTK to the superior performance of deep nonlinear orthogonal networks trained under full-batch gradient descent on the MNIST and CIFAR-10 classification tasks.
- Abstract(参考訳): 独立なガウス分布から初期化された重みを持つ完全連結のディープニューラルネットワークは、臨界度に調整することができ、ネットワークを介して伝播する信号の指数的な成長や崩壊を防ぐことができる。
しかし、これらのネットワークは、ネットワークの深さとともに線形に成長する変動を示しており、深さに匹敵する幅のネットワークのトレーニングを損なう可能性がある。
直交行列のアンサンブルから初期化したタン・アクティベーションと重みを持つ長方形ネットワークは、深さに依存しない事前活性化変動に対応し、逆幅の先頭方向であることを示す。
さらに, 初期化時には, ガウス初期化の場合のように成長せずに成長するのではなく, トレーニング中の可観測物の進化を制御し, 逆幅の順に, ニューラルタンジェントカーネル(NTK)とその子孫を含む全ての相関体が, 深さ$\sim 20$で飽和することを示した。
この構造は、有限幅の特徴学習を保ちながら、全体のノイズを低減し、幅に匹敵する深さの深層ネットワークにおける一般化とトレーニングの速度を改善できると推測する。
MNIST と CIFAR-10 の分類タスクに対して,MNIST と CIFAR-10 の完全な勾配勾配下で訓練した深部非線形直交ネットワークの性能について,NTK の実証的な測定結果と関連づけて実験的な正当性を示す。
関連論文リスト
- Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - Globally Gated Deep Linear Networks [3.04585143845864]
我々はGGDLN(Globally Gated Deep Linear Networks)を導入する。
有限幅熱力学極限におけるこれらのネットワークの一般化特性の正確な方程式を導出する。
我々の研究は、有限幅の非線形ネットワークの族における学習に関する最初の正確な理論解である。
論文 参考訳(メタデータ) (2022-10-31T16:21:56Z) - The edge of chaos: quantum field theory and deep neural networks [0.0]
我々は、ディープニューラルネットワークの一般クラスに対応する量子場理論を明示的に構築する。
我々は、深さ$T$と幅$N$との比の摂動展開において、相関関数に対するループ補正を計算する。
我々の分析は、急速に出現するNN-QFT対応に対する第一原理のアプローチを提供し、ディープニューラルネットワークの臨界性の研究にいくつかの興味深い道を開く。
論文 参考訳(メタデータ) (2021-09-27T18:00:00Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - On the Neural Tangent Kernel of Deep Networks with Orthogonal
Initialization [18.424756271923524]
我々は,FCN (Fully Connected Networks) や畳み込みニューラルネットワーク (Convolutional Neural Networks, CNN) など,さまざまなアーキテクチャにおける超広帯域ネットワークのダイナミクスについて検討する。
論文 参考訳(メタデータ) (2020-04-13T11:12:53Z) - On Random Kernels of Residual Architectures [93.94469470368988]
ResNets と DenseNets のニューラルタンジェントカーネル (NTK) に対して有限幅および深さ補正を導出する。
その結果,ResNetsでは,深さと幅が同時に無限大となるとNTKへの収束が生じる可能性が示唆された。
しかし、DenseNetsでは、NTKの幅が無限大になる傾向があるため、その限界への収束が保証されている。
論文 参考訳(メタデータ) (2020-01-28T16:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。