論文の概要: Droplets of Good Representations: Grokking as a First Order Phase
Transition in Two Layer Networks
- arxiv url: http://arxiv.org/abs/2310.03789v2
- Date: Wed, 22 Nov 2023 12:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 18:13:51.467135
- Title: Droplets of Good Representations: Grokking as a First Order Phase
Transition in Two Layer Networks
- Title(参考訳): 良表現の液滴:二層ネットワークにおける一階相転移としてのグロッキング
- Authors: Noa Rubin, Inbar Seroussi, Zohar Ringel
- Abstract要約: ディープニューラルネットワーク(DNN)の重要な特性は、トレーニング中に新機能を学ぶ能力である。
また、グローキングは、機能学習を含む遅延学習/ガウス過程の現象を越えていると考えられている。
我々は、Grokkingの後、DNNの状態が1次相転移後の混合相と類似していることを示す。
- 参考スコア(独自算出の注目度): 4.604003661048267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key property of deep neural networks (DNNs) is their ability to learn new
features during training. This intriguing aspect of deep learning stands out
most clearly in recently reported Grokking phenomena. While mainly reflected as
a sudden increase in test accuracy, Grokking is also believed to be a beyond
lazy-learning/Gaussian Process (GP) phenomenon involving feature learning. Here
we apply a recent development in the theory of feature learning, the adaptive
kernel approach, to two teacher-student models with cubic-polynomial and
modular addition teachers. We provide analytical predictions on feature
learning and Grokking properties of these models and demonstrate a mapping
between Grokking and the theory of phase transitions. We show that after
Grokking, the state of the DNN is analogous to the mixed phase following a
first-order phase transition. In this mixed phase, the DNN generates useful
internal representations of the teacher that are sharply distinct from those
before the transition.
- Abstract(参考訳): deep neural network(dnn)の重要な特性は、トレーニング中に新機能を学習する能力である。
このディープラーニングの興味深い側面は、最近報告されたGrokking現象で最も顕著である。
主にテスト精度の急上昇として反映されているが、Grokkingはまた、特徴学習を含む遅延学習/ガウス過程(GP)現象を超越していると考えられている。
本稿では, 機能学習理論, 適応カーネルアプローチの最近の発展を, 立方多項式とモジュラ付加の教師を持つ2つの教師学生モデルに適用する。
我々は,これらのモデルの特徴学習とグロッキング特性に関する解析的予測を行い,グロッキングと相転移の理論のマッピングを示す。
我々は、Grokkingの後、DNNの状態が1次相転移後の混合相と類似していることを示す。
この混合相において、dnnは、遷移前のものと鋭く異なる教師の有用な内部表現を生成する。
関連論文リスト
- Deep Grokking: Would Deep Neural Networks Generalize Better? [51.24007462968805]
グロキング(Grokking)とは、テストセットにおけるネットワークの一般化精度の急激な上昇を指す。
深層ニューラルネットワークは、浅いものよりもグラッキングの影響を受けやすいことがわかりました。
また,モデル深度を増大させると,興味深い多段階一般化現象が観測される。
論文 参考訳(メタデータ) (2024-05-29T19:05:11Z) - How Graph Neural Networks Learn: Lessons from Training Dynamics [80.41778059014393]
グラフニューラルネットワーク(GNN)の関数空間におけるトレーニングダイナミクスについて検討する。
GNNの勾配勾配勾配最適化は暗黙的にグラフ構造を利用して学習関数を更新する。
この発見は、学習したGNN関数が一般化した時期と理由に関する新たな解釈可能な洞察を提供する。
論文 参考訳(メタデータ) (2023-10-08T10:19:56Z) - Graph Neural Networks Provably Benefit from Structural Information: A
Feature Learning Perspective [53.999128831324576]
グラフニューラルネットワーク(GNN)は、グラフ表現学習の先駆けとなった。
本研究では,特徴学習理論の文脈におけるグラフ畳み込みの役割について検討する。
論文 参考訳(メタデータ) (2023-06-24T10:21:11Z) - A Tale of Two Circuits: Grokking as Competition of Sparse and Dense
Subnetworks [1.5297569497776375]
スパースパリティタスクでグラッキングを行うネットワークの内部構造について検討する。
グラッキング相転移はモデル予測に支配的なスパースサブネットワークの出現に対応する。
論文 参考訳(メタデータ) (2023-03-21T14:17:29Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neighborhood Convolutional Network: A New Paradigm of Graph Neural
Networks for Node Classification [12.062421384484812]
グラフ畳み込みネットワーク(GCN)は、各畳み込み層における近傍の集約と特徴変換を分離する。
本稿では,周辺畳み込みネットワーク(NCN)と呼ばれるGCNの新しいパラダイムを提案する。
このようにして、モデルは、近隣情報を集約するための分離GCNの利点を継承すると同時に、より強力な特徴学習モジュールを開発することができる。
論文 参考訳(メタデータ) (2022-11-15T02:02:51Z) - Grokking phase transitions in learning local rules with gradient descent [0.0]
グルーキングは相転移であり、臨界指数、グルーキング確率、グルーキング時間分布の正確な解析式を求める。
構造形成とグルーキングの関係を数値解析する。
論文 参考訳(メタデータ) (2022-10-26T11:07:04Z) - Graph Modularity: Towards Understanding the Cross-Layer Transition of
Feature Representations in Deep Neural Networks [7.187240308034312]
我々は、ディープニューラルネットワーク(DNN)における特徴表現の遷移を理解するための小さな一歩を踏み出した。
まず、中間層におけるクラス分離を解析し、次に、動的グラフにおけるコミュニティ進化としてクラス分離の過程をモデル化する。
モジュラリティは層が深くなるにつれて上昇する傾向にあるが、特定の層で隆起するか、あるいは隆起する傾向にある。
論文 参考訳(メタデータ) (2021-11-24T13:29:17Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。