論文の概要: Grokking as a First Order Phase Transition in Two Layer Networks
- arxiv url: http://arxiv.org/abs/2310.03789v3
- Date: Sun, 5 May 2024 12:21:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 00:45:15.128204
- Title: Grokking as a First Order Phase Transition in Two Layer Networks
- Title(参考訳): 2層ネットワークにおける第1次相転移としてのグラッキング
- Authors: Noa Rubin, Inbar Seroussi, Zohar Ringel,
- Abstract要約: ディープニューラルネットワーク(DNN)の重要な特性は、トレーニング中に新機能を学ぶ能力である。
また、グローキングは、機能学習を含む遅延学習/ガウス過程の現象を越えていると考えられている。
我々は、Grokkingの後、DNNの状態が1次相転移後の混合相と類似していることを示す。
- 参考スコア(独自算出の注目度): 4.096453902709292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key property of deep neural networks (DNNs) is their ability to learn new features during training. This intriguing aspect of deep learning stands out most clearly in recently reported Grokking phenomena. While mainly reflected as a sudden increase in test accuracy, Grokking is also believed to be a beyond lazy-learning/Gaussian Process (GP) phenomenon involving feature learning. Here we apply a recent development in the theory of feature learning, the adaptive kernel approach, to two teacher-student models with cubic-polynomial and modular addition teachers. We provide analytical predictions on feature learning and Grokking properties of these models and demonstrate a mapping between Grokking and the theory of phase transitions. We show that after Grokking, the state of the DNN is analogous to the mixed phase following a first-order phase transition. In this mixed phase, the DNN generates useful internal representations of the teacher that are sharply distinct from those before the transition.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の重要な特性は、トレーニング中に新機能を学ぶ能力である。
このディープラーニングの興味深い側面は、最近報告されたGrokking現象において最も顕著である。
主にテスト精度の急上昇として反映されているが、Grokkingはまた、特徴学習を含む遅延学習/ガウス過程(GP)現象を超越していると考えられている。
本稿では, 機能学習理論, 適応カーネルアプローチの最近の発展を, 立方多項式とモジュラ付加の教師を持つ2つの教師学生モデルに適用する。
我々はこれらのモデルの特徴学習とグロキング特性の分析的予測を行い、グロキングと相転移の理論のマッピングを実証する。
我々は、Grokkingの後、DNNの状態が1次相転移後の混合相と類似していることを示す。
この混合フェーズでは、DNNは、移行前の教師と著しく異なる教師の内部表現を生成する。
関連論文リスト
- Deep Grokking: Would Deep Neural Networks Generalize Better? [51.24007462968805]
グロキング(Grokking)とは、テストセットにおけるネットワークの一般化精度の急激な上昇を指す。
深層ニューラルネットワークは、浅いものよりもグラッキングの影響を受けやすいことがわかりました。
また,モデル深度を増大させると,興味深い多段階一般化現象が観測される。
論文 参考訳(メタデータ) (2024-05-29T19:05:11Z) - How Graph Neural Networks Learn: Lessons from Training Dynamics [80.41778059014393]
グラフニューラルネットワーク(GNN)の関数空間におけるトレーニングダイナミクスについて検討する。
GNNの勾配勾配勾配最適化は暗黙的にグラフ構造を利用して学習関数を更新する。
この発見は、学習したGNN関数が一般化した時期と理由に関する新たな解釈可能な洞察を提供する。
論文 参考訳(メタデータ) (2023-10-08T10:19:56Z) - Graph Neural Networks Provably Benefit from Structural Information: A
Feature Learning Perspective [53.999128831324576]
グラフニューラルネットワーク(GNN)は、グラフ表現学習の先駆けとなった。
本研究では,特徴学習理論の文脈におけるグラフ畳み込みの役割について検討する。
論文 参考訳(メタデータ) (2023-06-24T10:21:11Z) - A Tale of Two Circuits: Grokking as Competition of Sparse and Dense
Subnetworks [1.5297569497776375]
スパースパリティタスクでグラッキングを行うネットワークの内部構造について検討する。
グラッキング相転移はモデル予測に支配的なスパースサブネットワークの出現に対応する。
論文 参考訳(メタデータ) (2023-03-21T14:17:29Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neighborhood Convolutional Network: A New Paradigm of Graph Neural
Networks for Node Classification [12.062421384484812]
グラフ畳み込みネットワーク(GCN)は、各畳み込み層における近傍の集約と特徴変換を分離する。
本稿では,周辺畳み込みネットワーク(NCN)と呼ばれるGCNの新しいパラダイムを提案する。
このようにして、モデルは、近隣情報を集約するための分離GCNの利点を継承すると同時に、より強力な特徴学習モジュールを開発することができる。
論文 参考訳(メタデータ) (2022-11-15T02:02:51Z) - Grokking phase transitions in learning local rules with gradient descent [0.0]
グルーキングは相転移であり、臨界指数、グルーキング確率、グルーキング時間分布の正確な解析式を求める。
構造形成とグルーキングの関係を数値解析する。
論文 参考訳(メタデータ) (2022-10-26T11:07:04Z) - Graph Modularity: Towards Understanding the Cross-Layer Transition of
Feature Representations in Deep Neural Networks [7.187240308034312]
我々は、ディープニューラルネットワーク(DNN)における特徴表現の遷移を理解するための小さな一歩を踏み出した。
まず、中間層におけるクラス分離を解析し、次に、動的グラフにおけるコミュニティ進化としてクラス分離の過程をモデル化する。
モジュラリティは層が深くなるにつれて上昇する傾向にあるが、特定の層で隆起するか、あるいは隆起する傾向にある。
論文 参考訳(メタデータ) (2021-11-24T13:29:17Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。