論文の概要: Spectral evolution and invariance in linear-width neural networks
- arxiv url: http://arxiv.org/abs/2211.06506v1
- Date: Fri, 11 Nov 2022 23:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 16:38:20.050851
- Title: Spectral evolution and invariance in linear-width neural networks
- Title(参考訳): 線形幅ニューラルネットワークにおけるスペクトル進化と不変性
- Authors: Zhichao Wang, Andrew Engel, Anand Sarwate, Ioana Dumitriu, Tony Chiang
- Abstract要約: サンプルサイズがネットワーク幅に比例する線形幅フィードフォワードニューラルネットワークのスペクトル特性について検討した。
この高次元状態における重みスペクトルは、勾配降下によって訓練された小さな定常学習速度において不変であることを示す。
また、テストエラーや特徴学習の少ない適応的勾配学習では、重みとカーネルの両方が重い尾の挙動を示す。
- 参考スコア(独自算出の注目度): 9.637559861745972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the spectral properties of linear-width feed-forward neural
networks, where the sample size is asymptotically proportional to network
width. Empirically, we show that the weight spectra in this high dimensional
regime are invariant when trained by gradient descent for small constant
learning rates and the changes in both operator and Frobenius norm are
$\Theta(1)$ in the limit. This implies the bulk spectra for both the conjugate
and neural tangent kernels are also invariant. We demonstrate similar
characteristics for models trained with mini-batch (stochastic) gradient
descent with small learning rates and provide a theoretical justification for
this special scenario. When the learning rate is large, we show empirically
that an outlier emerges with its corresponding eigenvector aligned to the
training data structure. We also show that after adaptive gradient training,
where we have a lower test error and feature learning emerges, both the weight
and kernel matrices exhibit heavy tail behavior. Different spectral properties
such as invariant bulk, spike, and heavy-tailed distribution correlate to how
far the kernels deviate from initialization. To understand this phenomenon
better, we focus on a toy model, a two-layer network on synthetic data, which
exhibits different spectral properties for different training strategies.
Analogous phenomena also appear when we train conventional neural networks with
real-world data. Our results show that monitoring the evolution of the spectra
during training is an important step toward understanding the training dynamics
and feature learning.
- Abstract(参考訳): サンプルサイズがネットワーク幅に漸近的に比例する線形幅フィードフォワードニューラルネットワークのスペクトル特性について検討した。
経験的に、この高次元状態における重みスペクトルは、小さな定常学習率の勾配降下によって訓練されたときに不変であり、演算子とフロベニウスノルムの変化は極限において$\Theta(1)$であることを示す。
これは共役核とニューラル接核のバルクスペクトルも不変であることを意味する。
学習率の小さいミニバッチ(stochastic)勾配降下法で学習したモデルの類似した特性を示し,この特殊なシナリオを理論的に正当化する。
学習速度が大きくなると、トレーニングデータ構造に一致した固有ベクトルで、外れ値が出現することが実証的に示される。
また, 適応勾配トレーニングの結果, テスト誤差が低く, 特徴学習が出現すると, 重み行列とカーネル行列の両方が重くテール挙動を示すことが示された。
不変バルク、スパイク、ヘビーテール分布などの異なるスペクトル特性は、核が初期化からどこまで逸脱するかに相関する。
この現象をよりよく理解するために、我々は、異なるトレーニング戦略のための異なるスペクトル特性を示す合成データに基づく2層ネットワークであるおもちゃモデルに焦点を当てた。
従来のニューラルネットワークを実世界のデータでトレーニングする際にも、アナログ現象が現れる。
その結果、トレーニング中のスペクトル変化のモニタリングは、トレーニングのダイナミクスと機能学習を理解するための重要なステップであることがわかった。
関連論文リスト
- Asymptotics of Learning with Deep Structured (Random) Features [9.366617422860543]
機能マップの大規模なクラスでは、読み出しレイヤの学習に伴うテストエラーの厳密な特徴付けを提供しています。
いくつかのケースでは、勾配降下下で訓練された深部有限幅ニューラルネットワークによって学習された特徴写像をキャプチャできる。
論文 参考訳(メタデータ) (2024-02-21T18:35:27Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - A theory of data variability in Neural Network Bayesian inference [0.70224924046445]
無限広ネットワークの一般化特性をカバーする場理論形式論を提供する。
入力の統計的性質から一般化特性を導出する。
データ可変性は、(varphi3+varphi4$)-理論を思い起こさせる非ガウス的作用をもたらすことを示す。
論文 参考訳(メタデータ) (2023-07-31T14:11:32Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Benign Overfitting without Linearity: Neural Network Classifiers Trained
by Gradient Descent for Noisy Linear Data [44.431266188350655]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文 参考訳(メタデータ) (2022-02-11T23:04:00Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。