論文の概要: Grokking phase transitions in learning local rules with gradient descent
- arxiv url: http://arxiv.org/abs/2210.15435v1
- Date: Wed, 26 Oct 2022 11:07:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 15:59:18.877190
- Title: Grokking phase transitions in learning local rules with gradient descent
- Title(参考訳): 勾配降下を伴う局所規則学習におけるグロッキング相転移
- Authors: Bojan \v{Z}unkovi\v{c}, Enej Ilievski
- Abstract要約: グルーキングは相転移であり、臨界指数、グルーキング確率、グルーキング時間分布の正確な解析式を求める。
構造形成とグルーキングの関係を数値解析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We discuss two solvable grokking (generalisation beyond overfitting) models
in a rule learning scenario. We show that grokking is a phase transition and
find exact analytic expressions for the critical exponents, grokking
probability, and grokking time distribution. Further, we introduce a
tensor-network map that connects the proposed grokking setup with the standard
(perceptron) statistical learning theory and show that grokking is a
consequence of the locality of the teacher model. As an example, we analyse the
cellular automata learning task, numerically determine the critical exponent
and the grokking time distributions and compare them with the prediction of the
proposed grokking model. Finally, we numerically analyse the connection between
structure formation and grokking.
- Abstract(参考訳): ルール学習シナリオにおける2つの解答可能なグラッキングモデルについて議論する。
グルーキングは相転移であり、臨界指数、グルーキング確率、グルーキング時間分布の正確な解析式を求める。
さらに,提案するグロッキング設定を標準(知覚)統計学習理論と結びつけるテンソルネットワークマップを導入し,グロッキングが教師モデルの局所性の結果であることを示す。
例えば、セルオートマトン学習タスクを分析し、臨界指数とグルーキング時間分布を数値的に決定し、提案したグルーキングモデルの予測と比較する。
最後に,構造形成とグロッキングの関係を数値的に解析する。
関連論文リスト
- Grokking at the Edge of Linear Separability [1.024113475677323]
本研究では,ロジスティック分類の長期的ダイナミクスを,定数ラベルを持つランダム特徴モデルを用いて解析する。
線形分離性の頂点にあるトレーニングセットに分類を適用すると、Grokkingが増幅されることが分かる。
論文 参考訳(メタデータ) (2024-10-06T14:08:42Z) - von Mises Quasi-Processes for Bayesian Circular Regression [57.88921637944379]
円値ランダム関数上の表現的および解釈可能な分布の族を探索する。
結果の確率モデルは、統計物理学における連続スピンモデルと関係を持つ。
後続推論のために、高速マルコフ連鎖モンテカルロサンプリングに寄与するストラトノビッチのような拡張を導入する。
論文 参考訳(メタデータ) (2024-06-19T01:57:21Z) - Understanding Grokking Through A Robustness Viewpoint [3.23379981095083]
ニューラルネットワークの一般的な$l$ノルム(メトリック)は、実際にはグルークするのに十分な条件であることを示す。
我々は、ロバストネスと情報理論に基づく新しいメトリクスを提案し、我々の新しいメトリクスがグラッキング現象とよく相関し、グラッキングを予測するのに使用できることを発見した。
論文 参考訳(メタデータ) (2023-11-11T15:45:44Z) - Grokking in Linear Estimators -- A Solvable Model that Groks without
Understanding [1.1510009152620668]
グロキングは、トレーニングデータに適合した後、モデルが一般化することを学習する場所である。
線形処理を行う線形ネットワークにおいて、グラッキングが驚くほど起こりうることを解析的および数値的に示す。
論文 参考訳(メタデータ) (2023-10-25T08:08:44Z) - Grokking as a First Order Phase Transition in Two Layer Networks [4.096453902709292]
ディープニューラルネットワーク(DNN)の重要な特性は、トレーニング中に新機能を学ぶ能力である。
また、グローキングは、機能学習を含む遅延学習/ガウス過程の現象を越えていると考えられている。
我々は、Grokkingの後、DNNの状態が1次相転移後の混合相と類似していることを示す。
論文 参考訳(メタデータ) (2023-10-05T18:00:01Z) - Numerically assisted determination of local models in network scenarios [55.2480439325792]
統計的振る舞いを再現する明示的な局所モデルを見つけるための数値ツールを開発する。
グリーンベルガー・ホルン・ザイリンガー(GHZ)およびW分布の臨界振動性に関する予想を提供する。
開発されたコードとドキュメントは、281.com/mariofilho/localmodelsで公開されている。
論文 参考訳(メタデータ) (2023-03-17T13:24:04Z) - Bayesian Structure Learning with Generative Flow Networks [85.84396514570373]
ベイズ構造学習では、データから有向非巡回グラフ(DAG)上の分布を推定することに興味がある。
近年,ジェネレーティブ・フロー・ネットワーク(GFlowNets)と呼ばれる確率モデルのクラスが,ジェネレーティブ・モデリングの一般的なフレームワークとして紹介されている。
DAG-GFlowNetと呼ばれる本手法は,DAGよりも後方の正確な近似を提供する。
論文 参考訳(メタデータ) (2022-02-28T15:53:10Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z) - Why do classifier accuracies show linear trends under distribution
shift? [58.40438263312526]
あるデータ分布上のモデルの精度は、別の分布上の精度のほぼ線形関数である。
2つのモデルが予測で一致する確率は、精度レベルだけで推測できるものよりも高いと仮定します。
分布シフトの大きさが大きければ, 2 つの分布のモデルを評価する場合, 線形傾向が生じなければならない。
論文 参考訳(メタデータ) (2020-12-31T07:24:30Z) - Evaluation of Local Explanation Methods for Multivariate Time Series
Forecasting [0.21094707683348418]
局所的解釈可能性は、モデルが特定の予測を行う理由を決定する上で重要である。
近年、AIの解釈可能性に焦点が当てられているが、時系列予測のための局所的な解釈可能性手法の研究は不足している。
論文 参考訳(メタデータ) (2020-09-18T21:15:28Z) - Block-Approximated Exponential Random Graphs [77.4792558024487]
指数乱グラフ(ERG)の分野における重要な課題は、大きなグラフ上の非自明なERGの適合である。
本稿では,非自明なERGに対する近似フレームワークを提案する。
我々の手法は、数百万のノードからなるスパースグラフにスケーラブルである。
論文 参考訳(メタデータ) (2020-02-14T11:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。