論文の概要: A Tale of Two Circuits: Grokking as Competition of Sparse and Dense
Subnetworks
- arxiv url: http://arxiv.org/abs/2303.11873v1
- Date: Tue, 21 Mar 2023 14:17:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 14:49:13.641153
- Title: A Tale of Two Circuits: Grokking as Competition of Sparse and Dense
Subnetworks
- Title(参考訳): 2つの回路の物語:疎密なサブネットワークの競争としてのグロッキング
- Authors: William Merrill, Nikolaos Tsilivis, Aman Shukla
- Abstract要約: スパースパリティタスクでグラッキングを行うネットワークの内部構造について検討する。
グラッキング相転移はモデル予測に支配的なスパースサブネットワークの出現に対応する。
- 参考スコア(独自算出の注目度): 1.5297569497776375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grokking is a phenomenon where a model trained on an algorithmic task first
overfits but, then, after a large amount of additional training, undergoes a
phase transition to generalize perfectly. We empirically study the internal
structure of networks undergoing grokking on the sparse parity task, and find
that the grokking phase transition corresponds to the emergence of a sparse
subnetwork that dominates model predictions. On an optimization level, we find
that this subnetwork arises when a small subset of neurons undergoes rapid norm
growth, whereas the other neurons in the network decay slowly in norm. Thus, we
suggest that the grokking phase transition can be understood to emerge from
competition of two largely distinct subnetworks: a dense one that dominates
before the transition and generalizes poorly, and a sparse one that dominates
afterwards.
- Abstract(参考訳): グロッキング(grokking)は、アルゴリズム的なタスクで訓練されたモデルがまずオーバーフィットするが、大量の追加トレーニングの後、完全に一般化するために位相遷移を行う現象である。
我々は、疎パリティタスクでグロッキングを行うネットワークの内部構造を実証的に研究し、グロッキング位相遷移がモデル予測を支配する疎部分ネットワークの出現に対応することを見出した。
最適化レベルでは、このサブネットワークは、ニューロンの小さなサブセットが急速に成長するときに発生するのに対し、ネットワーク内の他のニューロンはゆっくりと標準的に崩壊する。
したがって, グロッキング相転移は, 遷移前に支配され, 一般化が貧弱な2つの部分ネットワークと, その後に支配的な疎みネットワークとの競合から生じると理解できることが示唆された。
関連論文リスト
- Early Directional Convergence in Deep Homogeneous Neural Networks for
Small Initializations [2.310288676109785]
本稿では、深部均一性ニューラルネットワークのトレーニング時に発生する勾配流れのダイナミクスについて検討する。
ニューラルネットワークの重みは標準では小さく、カルーシュ=クーン=タッカー点に沿ってほぼ収束している。
論文 参考訳(メタデータ) (2024-03-12T23:17:32Z) - Droplets of Good Representations: Grokking as a First Order Phase
Transition in Two Layer Networks [4.604003661048267]
ディープニューラルネットワーク(DNN)の重要な特性は、トレーニング中に新機能を学ぶ能力である。
また、グローキングは、機能学習を含む遅延学習/ガウス過程の現象を越えていると考えられている。
我々は、Grokkingの後、DNNの状態が1次相転移後の混合相と類似していることを示す。
論文 参考訳(メタデータ) (2023-10-05T18:00:01Z) - On the training and generalization of deep operator networks [11.159056906971983]
深層演算ネットワーク(DeepONets)のための新しいトレーニング手法を提案する。
DeepONetsは2つのサブネットワークによって構築されている。
入力データの観点から幅誤差推定値を確立する。
論文 参考訳(メタデータ) (2023-09-02T21:10:45Z) - Convergence Guarantees of Overparametrized Wide Deep Inverse Prior [1.5362025549031046]
逆優先法(Inverse Priors)は、ランダムな入力をフォワードモデルの下で画像が観察に一致するオブジェクトに変換する、教師なしのアプローチである。
本研究では, 連続時間勾配勾配勾配からトレーニングしたネットワークが, 高確率で指数関数的に高速に収束するオーバーパラメトリゼーション境界を提供する。
この研究は、過度にパラメータ化されたDIPネットワークの理論的理解への第一歩であり、より広い範囲で、逆問題設定におけるニューラルネットワークの理論的理解に関与している。
論文 参考訳(メタデータ) (2023-03-20T16:49:40Z) - Exact Phase Transitions in Deep Learning [5.33024001730262]
トレーニング損失における予測誤差とモデル複雑性の競合は,1つの隠蔽層をもつネットの2次位相遷移と,複数の隠蔽層を持つネットの1次位相遷移につながることを証明した。
提案理論はニューラルネットワークの最適化に直接関係しており,ベイズ深層学習における後部崩壊問題の起源を指摘する。
論文 参考訳(メタデータ) (2022-05-25T06:00:34Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - The Sample Complexity of One-Hidden-Layer Neural Networks [57.6421258363243]
本研究では,スカラー値を持つ一層ネットワークのクラスとユークリッドノルムで有界な入力について検討する。
隠蔽層重み行列のスペクトルノルムの制御は、一様収束を保証するには不十分であることを示す。
スペクトルノルム制御が十分であることを示す2つの重要な設定を解析する。
論文 参考訳(メタデータ) (2022-02-13T07:12:02Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Neural Pruning via Growing Regularization [82.9322109208353]
プルーニングの2つの中心的な問題:プルーニングのスケジュールと重み付けの重要度だ。
具体的には, ペナルティ要因が増大するL2正規化変種を提案し, 精度が著しく向上することを示した。
提案アルゴリズムは,構造化プルーニングと非構造化プルーニングの両方において,大規模データセットとネットワークの実装が容易かつスケーラブルである。
論文 参考訳(メタデータ) (2020-12-16T20:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。