Fugu-MT 論文翻訳(概要): Droplets of Good Representations: Grokking as a First Order Phase Transition in Two Layer Networks

論文の概要: Droplets of Good Representations: Grokking as a First Order Phase Transition in Two Layer Networks

arxiv url: http://arxiv.org/abs/2310.03789v2
Date: Wed, 22 Nov 2023 12:55:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 18:13:51.467135
Title: Droplets of Good Representations: Grokking as a First Order Phase Transition in Two Layer Networks
Title（参考訳）: 良表現の液滴:二層ネットワークにおける一階相転移としてのグロッキング
Authors: Noa Rubin, Inbar Seroussi, Zohar Ringel
Abstract要約: ディープニューラルネットワーク(DNN)の重要な特性は、トレーニング中に新機能を学ぶ能力である。また、グローキングは、機能学習を含む遅延学習/ガウス過程の現象を越えていると考えられている。我々は、Grokkingの後、DNNの状態が1次相転移後の混合相と類似していることを示す。
参考スコア（独自算出の注目度）: 4.604003661048267
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A key property of deep neural networks (DNNs) is their ability to learn new features during training. This intriguing aspect of deep learning stands out most clearly in recently reported Grokking phenomena. While mainly reflected as a sudden increase in test accuracy, Grokking is also believed to be a beyond lazy-learning/Gaussian Process (GP) phenomenon involving feature learning. Here we apply a recent development in the theory of feature learning, the adaptive kernel approach, to two teacher-student models with cubic-polynomial and modular addition teachers. We provide analytical predictions on feature learning and Grokking properties of these models and demonstrate a mapping between Grokking and the theory of phase transitions. We show that after Grokking, the state of the DNN is analogous to the mixed phase following a first-order phase transition. In this mixed phase, the DNN generates useful internal representations of the teacher that are sharply distinct from those before the transition.
Abstract（参考訳）: deep neural network(dnn)の重要な特性は、トレーニング中に新機能を学習する能力である。このディープラーニングの興味深い側面は、最近報告されたGrokking現象で最も顕著である。主にテスト精度の急上昇として反映されているが、Grokkingはまた、特徴学習を含む遅延学習/ガウス過程(GP)現象を超越していると考えられている。本稿では, 機能学習理論, 適応カーネルアプローチの最近の発展を, 立方多項式とモジュラ付加の教師を持つ2つの教師学生モデルに適用する。我々は,これらのモデルの特徴学習とグロッキング特性に関する解析的予測を行い,グロッキングと相転移の理論のマッピングを示す。我々は、Grokkingの後、DNNの状態が1次相転移後の混合相と類似していることを示す。この混合相において、dnnは、遷移前のものと鋭く異なる教師の有用な内部表現を生成する。

関連論文リスト

KPFlow: An Operator Perspective on Dynamic Collapse Under Gradient Descent Training of Recurrent Networks [9.512147747894026]
勾配流を2つの作用素を含む積に分解する方法を示す。それらの相互作用がGDの下での低次元潜在力学にどのように影響するかを示す。マルチタスクトレーニングでは,各サブタスクの目的がどのように一致しているかを演算子を用いて測定できることが示される。
論文参考訳（メタデータ） (2025-07-08T20:33:15Z)
NN-Former: Rethinking Graph Structure in Neural Architecture Representation [67.3378579108611]
グラフニューラルネットワーク(GNN)とトランスフォーマーは、ニューラルネットワークを表現する上で有望なパフォーマンスを示している。これまでの研究で見過ごされている間、兄弟ノードは中心的であることを示す。我々のアプローチは、精度と遅延予測の両方において、常に有望な性能を達成する。
論文参考訳（メタデータ） (2025-07-01T15:46:18Z)
MLPs at the EOC: Dynamics of Feature Learning [8.430481660019451]
本稿では,勾配降下の収束とそれに伴う特徴の学習を説明する理論を提案する。このような理論は、安定の端(EOS)やカタパルト機構など、実践者が観察する現象もカバーすべきである。
論文参考訳（メタデータ） (2025-02-18T18:23:33Z)
Deep Grokking: Would Deep Neural Networks Generalize Better? [51.24007462968805]
グロキング(Grokking)とは、テストセットにおけるネットワークの一般化精度の急激な上昇を指す。深層ニューラルネットワークは、浅いものよりもグラッキングの影響を受けやすいことがわかりました。また,モデル深度を増大させると,興味深い多段階一般化現象が観測される。
論文参考訳（メタデータ） (2024-05-29T19:05:11Z)
How Graph Neural Networks Learn: Lessons from Training Dynamics [80.41778059014393]
グラフニューラルネットワーク(GNN)の関数空間におけるトレーニングダイナミクスについて検討する。 GNNの勾配勾配勾配最適化は暗黙的にグラフ構造を利用して学習関数を更新する。この発見は、学習したGNN関数が一般化した時期と理由に関する新たな解釈可能な洞察を提供する。
論文参考訳（メタデータ） (2023-10-08T10:19:56Z)
Graph Neural Networks Provably Benefit from Structural Information: A Feature Learning Perspective [53.999128831324576]
グラフニューラルネットワーク(GNN)は、グラフ表現学習の先駆けとなった。本研究では,特徴学習理論の文脈におけるグラフ畳み込みの役割について検討する。
論文参考訳（メタデータ） (2023-06-24T10:21:11Z)
A Tale of Two Circuits: Grokking as Competition of Sparse and Dense Subnetworks [1.5297569497776375]
スパースパリティタスクでグラッキングを行うネットワークの内部構造について検討する。グラッキング相転移はモデル予測に支配的なスパースサブネットワークの出現に対応する。
論文参考訳（メタデータ） (2023-03-21T14:17:29Z)
Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文参考訳（メタデータ） (2023-02-01T03:18:07Z)
Neighborhood Convolutional Network: A New Paradigm of Graph Neural Networks for Node Classification [12.062421384484812]
グラフ畳み込みネットワーク(GCN)は、各畳み込み層における近傍の集約と特徴変換を分離する。本稿では,周辺畳み込みネットワーク(NCN)と呼ばれるGCNの新しいパラダイムを提案する。このようにして、モデルは、近隣情報を集約するための分離GCNの利点を継承すると同時に、より強力な特徴学習モジュールを開発することができる。
論文参考訳（メタデータ） (2022-11-15T02:02:51Z)
Grokking phase transitions in learning local rules with gradient descent [0.0]
グルーキングは相転移であり、臨界指数、グルーキング確率、グルーキング時間分布の正確な解析式を求める。構造形成とグルーキングの関係を数値解析する。
論文参考訳（メタデータ） (2022-10-26T11:07:04Z)
Graph Modularity: Towards Understanding the Cross-Layer Transition of Feature Representations in Deep Neural Networks [7.187240308034312]
我々は、ディープニューラルネットワーク(DNN)における特徴表現の遷移を理解するための小さな一歩を踏み出した。まず、中間層におけるクラス分離を解析し、次に、動的グラフにおけるコミュニティ進化としてクラス分離の過程をモデル化する。モジュラリティは層が深くなるにつれて上昇する傾向にあるが、特定の層で隆起するか、あるいは隆起する傾向にある。
論文参考訳（メタデータ） (2021-11-24T13:29:17Z)
Spatio-Temporal Inception Graph Convolutional Networks for Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文参考訳（メタデータ） (2020-11-26T14:43:04Z)
Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文参考訳（メタデータ） (2020-02-20T15:43:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。