論文の概要: Neural networks trained with SGD learn distributions of increasing
complexity
- arxiv url: http://arxiv.org/abs/2211.11567v2
- Date: Fri, 26 May 2023 13:11:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 23:18:32.754010
- Title: Neural networks trained with SGD learn distributions of increasing
complexity
- Title(参考訳): SGDを用いたニューラルネットワークによる複雑性増加の学習分布の学習
- Authors: Maria Refinetti and Alessandro Ingrosso and Sebastian Goldt
- Abstract要約: 勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
- 参考スコア(独自算出の注目度): 78.30235086565388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability of deep neural networks to generalise well even when they
interpolate their training data has been explained using various "simplicity
biases". These theories postulate that neural networks avoid overfitting by
first learning simple functions, say a linear classifier, before learning more
complex, non-linear functions. Meanwhile, data structure is also recognised as
a key ingredient for good generalisation, yet its role in simplicity biases is
not yet understood. Here, we show that neural networks trained using stochastic
gradient descent initially classify their inputs using lower-order input
statistics, like mean and covariance, and exploit higher-order statistics only
later during training. We first demonstrate this distributional simplicity bias
(DSB) in a solvable model of a neural network trained on synthetic data. We
empirically demonstrate DSB in a range of deep convolutional networks and
visual transformers trained on CIFAR10, and show that it even holds in networks
pre-trained on ImageNet. We discuss the relation of DSB to other simplicity
biases and consider its implications for the principle of Gaussian universality
in learning.
- Abstract(参考訳): 深層ニューラルネットワークがトレーニングデータを補間してもうまく一般化する能力は、様々な「単純化バイアス」を用いて説明されている。
これらの理論は、ニューラルネットワークがより複雑な非線形関数を学ぶ前に、まず線形分類子のような単純な関数を学習することで過剰にフィットすることを避けると仮定している。
一方、データ構造は優れた一般化の鍵となる要素としても認識されているが、単純さバイアスにおけるその役割はまだ理解されていない。
ここでは,確率勾配勾配から学習したニューラルネットワークが,平均や共分散といった低次入力統計を用いて入力を分類し,訓練中にのみ高次統計を利用することを示す。
まず、この分布的単純性バイアス(DSB)を、合成データに基づいてトレーニングされたニューラルネットワークの可解モデルで示す。
我々は、CIFAR10で訓練された深層畳み込みネットワークとビジュアルトランスフォーマーでDSBを実証的に実証し、ImageNetで事前訓練されたネットワークにさえ保持されていることを示す。
DSBと他の単純バイアスとの関係を論じ,学習におけるガウス普遍性の原理にその意味を考察する。
関連論文リスト
- Early learning of the optimal constant solution in neural networks and humans [4.016584525313835]
対象関数の学習は、ネットワークが最適定数解(OCS)を学習する初期段階に先立って行われることを示す。
我々は、バイアス項がなくてもOCSの学習が出現し、入力データの一般的な相関によって等価に駆動されることを示す。
我々の研究は、OCSを教師付き誤り訂正学習における普遍的な学習原則として示唆している。
論文 参考訳(メタデータ) (2024-06-25T11:12:52Z) - Simplicity Bias of Two-Layer Networks beyond Linearly Separable Data [4.14360329494344]
重みが小さい2層ニューラルネットワークの文脈における一般データセットの単純さバイアスを特徴付け、勾配流を訓練する。
XORのようなパターンを持つデータセットに対しては、学習した特徴を正確に識別し、後続のトレーニング段階で単純さのバイアスが強まることを示す。
これらの結果から,訓練中期に学習した特徴がOOD伝達に有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-27T16:00:45Z) - A Scalable Walsh-Hadamard Regularizer to Overcome the Low-degree
Spectral Bias of Neural Networks [79.28094304325116]
任意の関数を学習するニューラルネットワークの能力にもかかわらず、勾配降下によって訓練されたモデルは、しばしばより単純な関数に対するバイアスを示す。
我々は、この低度周波数に対するスペクトルバイアスが、現実のデータセットにおけるニューラルネットワークの一般化を実際にいかに損なうかを示す。
本稿では,ニューラルネットワークによる高次周波数学習を支援する,スケーラブルな機能正規化手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:06:01Z) - Reconstructing Training Data from Trained Neural Networks [42.60217236418818]
いくつかのケースでは、トレーニングデータのかなりの部分が、実際にトレーニングされたニューラルネットワーク分類器のパラメータから再構成可能であることを示す。
本稿では,勾配に基づくニューラルネットワークの学習における暗黙バイアスに関する最近の理論的結果から,新たな再構成手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:35:16Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - How Neural Networks Extrapolate: From Feedforward to Graph Neural
Networks [80.55378250013496]
勾配勾配降下法によりトレーニングされたニューラルネットワークが、トレーニング分布の支持の外で学んだことを外挿する方法について検討する。
グラフニューラルネットワーク(GNN)は、より複雑なタスクでいくつかの成功を収めている。
論文 参考訳(メタデータ) (2020-09-24T17:48:59Z) - Learning from Failure: Training Debiased Classifier from Biased
Classifier [76.52804102765931]
ニューラルネットワークは、所望の知識よりも学習が簡単である場合にのみ、素早い相関に依存することを学習していることを示す。
本稿では,一対のニューラルネットワークを同時にトレーニングすることで,障害に基づくデバイアス化手法を提案する。
本手法は,合成データセットと実世界のデータセットの両方において,各種バイアスに対するネットワークのトレーニングを大幅に改善する。
論文 参考訳(メタデータ) (2020-07-06T07:20:29Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。