Fugu-MT 論文翻訳(概要): Grokking as the Transition from Lazy to Rich Training Dynamics

論文の概要: Grokking as the Transition from Lazy to Rich Training Dynamics

arxiv url: http://arxiv.org/abs/2310.06110v2
Date: Wed, 22 Nov 2023 20:20:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 03:03:16.210330
Title: Grokking as the Transition from Lazy to Rich Training Dynamics
Title（参考訳）: 遅延からリッチトレーニングダイナミクスへの移行としてのグロッキング
Authors: Tanishq Kumar, Blake Bordelon, Samuel J. Gershman, Cengiz Pehlevan
Abstract要約: グルーキングは、ニューラルネットワークの列車の損失がテスト損失よりもはるかに早く減少するときに起こる。グルーキングの主要な要因は、特徴学習の速度である。
参考スコア（独自算出の注目度）: 38.438392453755526
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose that the grokking phenomenon, where the train loss of a neural network decreases much earlier than its test loss, can arise due to a neural network transitioning from lazy training dynamics to a rich, feature learning regime. To illustrate this mechanism, we study the simple setting of vanilla gradient descent on a polynomial regression problem with a two layer neural network which exhibits grokking without regularization in a way that cannot be explained by existing theories. We identify sufficient statistics for the test loss of such a network, and tracking these over training reveals that grokking arises in this setting when the network first attempts to fit a kernel regression solution with its initial features, followed by late-time feature learning where a generalizing solution is identified after train loss is already low. We provide an asymptotic theoretical description of the grokking dynamics in this model using dynamical mean field theory (DMFT) for high dimensional data. We find that the key determinants of grokking are the rate of feature learning -- which can be controlled precisely by parameters that scale the network output -- and the alignment of the initial features with the target function $y(x)$. We argue this delayed generalization arises when (1) the top eigenvectors of the initial neural tangent kernel and the task labels $y(x)$ are misaligned, but (2) the dataset size is large enough so that it is possible for the network to generalize eventually, but not so large that train loss perfectly tracks test loss at all epochs, and (3) the network begins training in the lazy regime so does not learn features immediately. We conclude with evidence that this transition from lazy (linear model) to rich training (feature learning) can control grokking in more general settings, like on MNIST, one-layer Transformers, and student-teacher networks.
Abstract（参考訳）: ニューラルネットの列車損失がテスト損失よりもずっと早く減少するグロッキング現象は,遅延トレーニングダイナミクスからリッチな特徴学習環境へ移行するニューラルネットワークによって生じる可能性がある。このメカニズムを説明するために,従来の理論では説明できない方法で正規化せずにグラッキングを示す2層ニューラルネットワークを用いて,多項式回帰問題に対するバニラ勾配勾配の簡単な設定について検討した。このようなネットワークのテスト損失に対する十分な統計を同定し、トレーニング上でこれらを追跡することで、ネットワークが最初の機能にカーネル回帰ソリューションを適合させようとすると、グロッキングが発生することが分かる。我々は,高次元データに対する動的平均場理論(DMFT)を用いて,このモデルにおけるグルーキング力学の漸近的理論的記述を行う。グロッキングの重要な決定要因は、ネットワークアウトプットをスケールするパラメータによって正確に制御できる特徴学習の速度と、最初の特徴と対象関数 $y(x)$ とのアライメントである。この遅延一般化は,(1)初期ニューラルタンジェントカーネルの上位固有ベクトルとタスクラベルの$y(x)$が一致しない場合に生じるが,(2)データセットのサイズが十分に大きくなり,最終的にネットワークが一般化できるが,列車の損失が全てのエポックにおけるテスト損失を完全に追跡するほど大きくなく,(3)ネットワークが遅延状態のトレーニングを開始し,すぐに特徴を学習しない場合に生じる。我々は、この遅延(線形モデル)からリッチトレーニング(フィーチャーラーニング)への移行が、MNISTや一層トランスフォーマー、学生教師ネットワークなど、より一般的な環境でのグラッキングを制御できることを示す。

関連論文リスト

Low-rank bias, weight decay, and model merging in neural networks [12.352761060862072]
我々は、L2$正規化でトレーニングされたディープニューラルネットワークのいくつかの特性を示す。また、L2$正規化と低ランクバイアスによって実現されるマルチタスク学習現象についても検討した。
論文参考訳（メタデータ） (2025-02-24T17:17:00Z)
Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文参考訳（メタデータ） (2023-03-07T18:59:38Z)
Theoretical Characterization of How Neural Network Pruning Affects its Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文参考訳（メタデータ） (2023-01-01T03:10:45Z)
Neural networks trained with SGD learn distributions of increasing complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。その後、トレーニング中にのみ高次の統計を利用する。本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文参考訳（メタデータ） (2022-11-21T15:27:22Z)
Improving the Trainability of Deep Neural Networks through Layerwise Batch-Entropy Regularization [1.3999481573773072]
ニューラルネットワークの各層を通しての情報の流れを定量化するバッチエントロピーを導入,評価する。損失関数にバッチエントロピー正規化項を追加するだけで、500層からなる「バニラ」完全連結ネットワークと畳み込みニューラルネットワークをトレーニングできることが示される。
論文参考訳（メタデータ） (2022-08-01T20:31:58Z)
Benign Overfitting in Two-layer Convolutional Neural Networks [90.75603889605043]
2層畳み込みニューラルネットワーク(CNN)の訓練における良性過剰適合現象の検討信号対雑音比が一定の条件を満たすと、勾配降下により訓練された2層CNNが任意に小さな訓練と試験損失を達成できることを示す。一方、この条件が保たない場合、オーバーフィッティングは有害となり、得られたCNNは一定レベルのテスト損失しか達成できない。
論文参考訳（メタデータ） (2022-02-14T07:45:51Z)
Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文参考訳（メタデータ） (2021-10-12T01:11:07Z)
Over-parametrized neural networks as under-determined linear systems [31.69089186688224]
単純なニューラルネットワークがトレーニング損失をゼロにできるのは当然のことだ。 ReLUアクティベーション関数に典型的に関連付けられたカーネルには、根本的な欠陥があることが示される。本稿では,ReLUの落とし穴を避けるための新たなアクティベーション関数を提案する。
論文参考訳（メタデータ） (2020-10-29T21:43:00Z)
It's Hard for Neural Networks To Learn the Game of Life [4.061135251278187]
最近の研究では、ニューラルネットワークは、ソリューションに迅速に収束する"ロテリチケット"のラッキーな初期重みに依存していることが示唆されている。本研究では,2次元セル・オートマトン・コンウェイのゲーム・オブ・ライフのn段階を予測するために訓練された小さな畳み込みネットワークについて検討する。このタスクでトレーニングされたこのアーキテクチャのネットワークは、ほとんど収束しない。
論文参考訳（メタデータ） (2020-09-03T00:47:08Z)
A Revision of Neural Tangent Kernel-based Approaches for Neural Networks [34.75076385561115]
ニューラルネットワークカーネルを使用して、ネットワークが任意の有限トレーニングサンプルに完全に適合できることを示す。単純で解析的なカーネル関数は、完全に訓練されたネットワークと同等のものとして導出された。より厳密な分析により,スケーリングの問題が解決され,元のNTKに基づく結果の検証が可能となった。
論文参考訳（メタデータ） (2020-07-02T05:07:55Z)
The Surprising Simplicity of the Early-Time Learning Dynamics of Neural Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文参考訳（メタデータ） (2020-06-25T17:42:49Z)
Feature Purification: How Adversarial Training Performs Robust Deep Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文参考訳（メタデータ） (2020-05-20T16:56:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。