論文の概要: Spectral Evolution and Invariance in Linear-width Neural Networks
- arxiv url: http://arxiv.org/abs/2211.06506v2
- Date: Wed, 8 Nov 2023 04:50:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 20:27:10.333503
- Title: Spectral Evolution and Invariance in Linear-width Neural Networks
- Title(参考訳): 線形幅ニューラルネットワークのスペクトル進化と不変性
- Authors: Zhichao Wang, Andrew Engel, Anand Sarwate, Ioana Dumitriu, Tony Chiang
- Abstract要約: 線形幅フィードフォワードニューラルネットワークのスペクトル特性について検討する。
この高次元構造における重みのスペクトルは、小さな定常学習率の勾配降下によって訓練されたときに不変であることを示す。
また,テストエラーや特徴学習の少ない適応的勾配学習では,重みとカーネルの両方に重みが認められた。
- 参考スコア(独自算出の注目度): 8.419660614226816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the spectral properties of linear-width feed-forward neural
networks, where the sample size is asymptotically proportional to network
width. Empirically, we show that the spectra of weight in this high dimensional
regime are invariant when trained by gradient descent for small constant
learning rates; we provide a theoretical justification for this observation and
prove the invariance of the bulk spectra for both conjugate and neural tangent
kernels. We demonstrate similar characteristics when training with stochastic
gradient descent with small learning rates. When the learning rate is large, we
exhibit the emergence of an outlier whose corresponding eigenvector is aligned
with the training data structure. We also show that after adaptive gradient
training, where a lower test error and feature learning emerge, both weight and
kernel matrices exhibit heavy tail behavior. Simple examples are provided to
explain when heavy tails can have better generalizations. We exhibit different
spectral properties such as invariant bulk, spike, and heavy-tailed
distribution from a two-layer neural network using different training
strategies, and then correlate them to the feature learning. Analogous
phenomena also appear when we train conventional neural networks with
real-world data. We conclude that monitoring the evolution of the spectra
during training is an essential step toward understanding the training dynamics
and feature learning.
- Abstract(参考訳): サンプルサイズがネットワーク幅に漸近的に比例する線形幅フィードフォワードニューラルネットワークのスペクトル特性について検討した。
実験により, この高次元状態における重みのスペクトルは, 勾配降下による学習速度の訓練で不変であることを示し, この観測の理論的正当性を示し, 共役カーネルとニューラルタンジェントカーネルの両方に対するバルクスペクトルの不変性を証明した。
学習率の小さい確率的勾配降下訓練において,同様の特徴を示す。
学習率が大きい場合には、対応する固有ベクトルがトレーニングデータ構造に整列した外れ値の出現を示す。
また, 適応勾配トレーニングの結果, テスト誤差の低減と特徴学習が出現すると, 重み行列とカーネル行列の両方が重くテール挙動を示すことが示された。
重い尾がよりよく一般化できる理由を説明するための簡単な例が提供される。
我々は、異なるトレーニング戦略を用いて、2層ニューラルネットワークから不変バルク、スパイク、重み付き分布などの異なるスペクトル特性を示し、特徴学習と相関する。
従来のニューラルネットワークを実世界のデータでトレーニングする際にも、アナログ現象が現れる。
トレーニング中のスペクトルの進化を監視することは、トレーニングのダイナミクスや特徴学習を理解するための重要なステップである。
関連論文リスト
- Asymptotics of Learning with Deep Structured (Random) Features [9.366617422860543]
機能マップの大規模なクラスでは、読み出しレイヤの学習に伴うテストエラーの厳密な特徴付けを提供しています。
いくつかのケースでは、勾配降下下で訓練された深部有限幅ニューラルネットワークによって学習された特徴写像をキャプチャできる。
論文 参考訳(メタデータ) (2024-02-21T18:35:27Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - A theory of data variability in Neural Network Bayesian inference [0.70224924046445]
無限広ネットワークの一般化特性をカバーする場理論形式論を提供する。
入力の統計的性質から一般化特性を導出する。
データ可変性は、(varphi3+varphi4$)-理論を思い起こさせる非ガウス的作用をもたらすことを示す。
論文 参考訳(メタデータ) (2023-07-31T14:11:32Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Benign Overfitting without Linearity: Neural Network Classifiers Trained
by Gradient Descent for Noisy Linear Data [44.431266188350655]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文 参考訳(メタデータ) (2022-02-11T23:04:00Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。