論文の概要: Early learning of the optimal constant solution in neural networks and humans
- arxiv url: http://arxiv.org/abs/2406.17467v1
- Date: Tue, 25 Jun 2024 11:12:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 14:42:03.041238
- Title: Early learning of the optimal constant solution in neural networks and humans
- Title(参考訳): ニューラルネットワークと人間の最適定数解の早期学習
- Authors: Jirko Rubruck, Jan P. Bauer, Andrew Saxe, Christopher Summerfield,
- Abstract要約: 対象関数の学習は、ネットワークが最適定数解(OCS)を学習する初期段階に先立って行われることを示す。
我々は、バイアス項がなくてもOCSの学習が出現し、入力データの一般的な相関によって等価に駆動されることを示す。
我々の研究は、OCSを教師付き誤り訂正学習における普遍的な学習原則として示唆している。
- 参考スコア(独自算出の注目度): 4.016584525313835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks learn increasingly complex functions over the course of training. Here, we show both empirically and theoretically that learning of the target function is preceded by an early phase in which networks learn the optimal constant solution (OCS) - that is, initial model responses mirror the distribution of target labels, while entirely ignoring information provided in the input. Using a hierarchical category learning task, we derive exact solutions for learning dynamics in deep linear networks trained with bias terms. Even when initialized to zero, this simple architectural feature induces substantial changes in early dynamics. We identify hallmarks of this early OCS phase and illustrate how these signatures are observed in deep linear networks and larger, more complex (and nonlinear) convolutional neural networks solving a hierarchical learning task based on MNIST and CIFAR10. We explain these observations by proving that deep linear networks necessarily learn the OCS during early learning. To further probe the generality of our results, we train human learners over the course of three days on the category learning task. We then identify qualitative signatures of this early OCS phase in terms of the dynamics of true negative (correct-rejection) rates. Surprisingly, we find the same early reliance on the OCS in the behaviour of human learners. Finally, we show that learning of the OCS can emerge even in the absence of bias terms and is equivalently driven by generic correlations in the input data. Overall, our work suggests the OCS as a universal learning principle in supervised, error-corrective learning, and the mechanistic reasons for its prevalence.
- Abstract(参考訳): 深層ニューラルネットワークは、トレーニングの過程でますます複雑な機能を学ぶ。
ここでは、対象関数の学習が、ネットワークが最適定数解(OCS)を学習する初期段階、すなわち、初期モデル応答がターゲットラベルの分布を反映し、入力に提供された情報を完全に無視する初期段階に先行していることを実証的および理論的に示す。
階層的なカテゴリ学習タスクを用いて、バイアス項で訓練された深層線形ネットワークにおける動的学習の正確な解を導出する。
初期化してゼロになったとしても、このシンプルなアーキテクチャ機能は初期のダイナミクスに大きな変化をもたらす。
MNISTとCIFAR10に基づく階層的学習課題を解くために、この初期のOCSフェーズの目印を特定し、これらのシグネチャが深い線形ネットワークやより大きく、より複雑な(そして非線形)畳み込みニューラルネットワークでどのように観測されるかを説明する。
これらの観測は、深層線形ネットワークが早期学習中に必ずOCSを学習していることを証明することによって説明される。
結果の汎用性をさらに調査するため,分類学習課題において,3日間にわたって人間の学習者を訓練する。
次に、正負(正しい還元)の速度のダイナミクスの観点から、この初期のOCS相の定性的なシグネチャを同定する。
驚くべきことに、私たちは人間の学習者の行動において、OCSに早くから依存していた。
最後に、バイアス項がなくてもOCSの学習が出現し、入力データの一般的な相関によって等価に駆動されることを示す。
全体としては、OCSは教師付き、誤り訂正学習における普遍的な学習原則であり、その普及のメカニズム的な理由を示唆している。
関連論文リスト
- How connectivity structure shapes rich and lazy learning in neural
circuits [14.236853424595333]
本稿では,初期重みの構造,特にその有効ランクがネットワーク学習体制に与える影響について検討する。
本研究は,学習体制形成における初期重み構造の役割を明らかにするものである。
論文 参考訳(メタデータ) (2023-10-12T17:08:45Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - With Greater Distance Comes Worse Performance: On the Perspective of
Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。
初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。
より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文 参考訳(メタデータ) (2022-01-28T05:26:32Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。