論文の概要: The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks
- arxiv url: http://arxiv.org/abs/2006.14599v1
- Date: Thu, 25 Jun 2020 17:42:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 02:37:10.216460
- Title: The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks
- Title(参考訳): ニューラルネットワークの早期学習ダイナミクスの驚くべき単純さ
- Authors: Wei Hu, Lechao Xiao, Ben Adlam, Jeffrey Pennington
- Abstract要約: 研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
- 参考スコア(独自算出の注目度): 43.860358308049044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern neural networks are often regarded as complex black-box functions
whose behavior is difficult to understand owing to their nonlinear dependence
on the data and the nonconvexity in their loss landscapes. In this work, we
show that these common perceptions can be completely false in the early phase
of learning. In particular, we formally prove that, for a class of well-behaved
input distributions, the early-time learning dynamics of a two-layer
fully-connected neural network can be mimicked by training a simple linear
model on the inputs. We additionally argue that this surprising simplicity can
persist in networks with more layers and with convolutional architecture, which
we verify empirically. Key to our analysis is to bound the spectral norm of the
difference between the Neural Tangent Kernel (NTK) at initialization and an
affine transform of the data kernel; however, unlike many previous results
utilizing the NTK, we do not require the network to have disproportionately
large width, and the network is allowed to escape the kernel regime later in
training.
- Abstract(参考訳): 現代のニューラルネットワークは、データへの非線形依存と損失景観における非凸性のため、振る舞いが理解しにくい複雑なブラックボックス関数と見なされることが多い。
本研究では,これらの共通認識が学習の初期段階において完全に誤りであることを示す。
特に, 入力分布のクラスにおいて, 2層完全連結ニューラルネットワークの早期学習ダイナミクスは, 入力上の単純な線形モデルを訓練することによって模倣できることを正式に証明する。
さらに、この驚くべき単純さは、より多くの層と畳み込みアーキテクチャを持つネットワークで持続し、実証的に検証できると論じている。
我々の分析の鍵は、初期化時の神経接核(ntk)とデータカーネルのアフィン変換との差のスペクトルノルムを限定することである。しかし、ntkを使用する多くの以前の結果とは異なり、ネットワークが不釣り合いに広い幅を持つ必要はなく、ネットワークは後にカーネルレジームから逃れることができる。
関連論文リスト
- Early learning of the optimal constant solution in neural networks and humans [4.016584525313835]
対象関数の学習は、ネットワークが最適定数解(OCS)を学習する初期段階に先立って行われることを示す。
我々は、バイアス項がなくてもOCSの学習が出現し、入力データの一般的な相関によって等価に駆動されることを示す。
我々の研究は、OCSを教師付き誤り訂正学習における普遍的な学習原則として示唆している。
論文 参考訳(メタデータ) (2024-06-25T11:12:52Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - An analytic theory of shallow networks dynamics for hinge loss
classification [14.323962459195771]
我々は、単純なタイプのニューラルネットワーク(分類タスクを実行するために訓練された単一の隠れ層)のトレーニングダイナミクスについて研究する。
我々はこの理論を線形分離可能なデータセットと線形ヒンジ損失のプロトタイプケースに特化する。
これにより、トレーニングダイナミクスの減速、リッチラーニングと遅延ラーニングのクロスオーバー、オーバーフィッティングといった、現代のネットワークに現れるいくつかの現象に対処することが可能になります。
論文 参考訳(メタデータ) (2020-06-19T16:25:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。