論文の概要: Grokking in Linear Estimators -- A Solvable Model that Groks without
Understanding
- arxiv url: http://arxiv.org/abs/2310.16441v1
- Date: Wed, 25 Oct 2023 08:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 15:56:00.964905
- Title: Grokking in Linear Estimators -- A Solvable Model that Groks without
Understanding
- Title(参考訳): 線形推定器におけるグロッキング--理解せずにグロックする可解モデル
- Authors: Noam Levi and Alon Beck and Yohai Bar-Sinai
- Abstract要約: グロキングは、トレーニングデータに適合した後、モデルが一般化することを学習する場所である。
線形処理を行う線形ネットワークにおいて、グラッキングが驚くほど起こりうることを解析的および数値的に示す。
- 参考スコア(独自算出の注目度): 1.1510009152620668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grokking is the intriguing phenomenon where a model learns to generalize long
after it has fit the training data. We show both analytically and numerically
that grokking can surprisingly occur in linear networks performing linear tasks
in a simple teacher-student setup with Gaussian inputs. In this setting, the
full training dynamics is derived in terms of the training and generalization
data covariance matrix. We present exact predictions on how the grokking time
depends on input and output dimensionality, train sample size, regularization,
and network initialization. We demonstrate that the sharp increase in
generalization accuracy may not imply a transition from "memorization" to
"understanding", but can simply be an artifact of the accuracy measure. We
provide empirical verification for our calculations, along with preliminary
results indicating that some predictions also hold for deeper networks, with
non-linear activations.
- Abstract(参考訳): グロッキング(Grokking)は、トレーニングデータに適合した後、モデルが一般化することを学習する興味深い現象である。
解析的にも数値的にも,ガウス入力を用いた単純な教師スチューデントで線形タスクを行う線形ネットワークにおいて,グロッキングが驚くほど発生することを示した。
この設定では、トレーニングおよび一般化データ共分散行列の観点から、フルトレーニングダイナミクスが導出される。
グロッキング時間は入力と出力の次元、サンプルサイズ、正規化、ネットワーク初期化にどのように依存するかを正確に予測する。
一般化精度の急激な増加は「記憶」から「理解」への移行を意味するものではなく、単に精度測定の成果であることを示す。
計算の実証的な検証と予備的な結果から、より深いネットワークでも、非線形なアクティベーションを伴う予測が成り立つことを示す。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Grokking at the Edge of Linear Separability [1.024113475677323]
本研究では,ロジスティック分類の長期的ダイナミクスを,定数ラベルを持つランダム特徴モデルを用いて解析する。
線形分離性の頂点にあるトレーニングセットに分類を適用すると、Grokkingが増幅されることが分かる。
論文 参考訳(メタデータ) (2024-10-06T14:08:42Z) - Bayes' Power for Explaining In-Context Learning Generalizations [46.17844703369127]
本稿では、この時代のニューラルネットワークの振る舞いをより有用な解釈は、真の後部の近似であると論じる。
トレーニングデータから知識を効果的に構築することにより,モデルがコンテキスト内学習者に対して堅牢になることを示す。
論文 参考訳(メタデータ) (2024-10-02T14:01:34Z) - Understanding Grokking Through A Robustness Viewpoint [3.23379981095083]
ニューラルネットワークの一般的な$l$ノルム(メトリック)は、実際にはグルークするのに十分な条件であることを示す。
我々は、ロバストネスと情報理論に基づく新しいメトリクスを提案し、我々の新しいメトリクスがグラッキング現象とよく相関し、グラッキングを予測するのに使用できることを発見した。
論文 参考訳(メタデータ) (2023-11-11T15:45:44Z) - Benign Overfitting and Grokking in ReLU Networks for XOR Cluster Data [42.870635753205185]
勾配降下(GD)によって訓練されたニューラルネットワークは、多くの驚くべき一般化挙動を示した。
これらの現象は、XORクラスタデータ上でGDによって訓練された2層ReLUネットワークにおいて、良好に発生することを示す。
後続のトレーニングステップでは、ネットワークはトレーニングデータにランダムラベルをいまだに適合させながら、ほぼ最適のテスト精度を達成し、"グロッキング"現象を示す。
論文 参考訳(メタデータ) (2023-10-04T02:50:34Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Grokking phase transitions in learning local rules with gradient descent [0.0]
グルーキングは相転移であり、臨界指数、グルーキング確率、グルーキング時間分布の正確な解析式を求める。
構造形成とグルーキングの関係を数値解析する。
論文 参考訳(メタデータ) (2022-10-26T11:07:04Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Learning Invariances in Neural Networks [51.20867785006147]
ネットワークパラメータや拡張パラメータに関して,拡張性よりも分布をパラメータ化し,トレーニング損失を同時に最適化する方法を示す。
画像分類,回帰,セグメンテーション,分子特性予測における不均一性の正確なセットと範囲を,拡張の広い空間から復元することができる。
論文 参考訳(メタデータ) (2020-10-22T17:18:48Z) - Theoretical Analysis of Self-Training with Deep Networks on Unlabeled
Data [48.4779912667317]
自己学習アルゴリズムは、ニューラルネットワークを使ってラベルのないデータで学ぶことに成功している。
この研究は、半教師なし学習、教師なしドメイン適応、教師なし学習のための深層ネットワークによる自己学習の統一的理論的解析を提供する。
論文 参考訳(メタデータ) (2020-10-07T19:43:55Z) - Semi-Supervised Learning with Normalizing Flows [54.376602201489995]
FlowGMMは、フローの正規化を伴う生成半教師付き学習におけるエンドツーエンドのアプローチである。
我々は AG-News や Yahoo Answers のテキストデータなど,幅広いアプリケーションに対して有望な結果を示す。
論文 参考訳(メタデータ) (2019-12-30T17:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。