論文の概要: Grokking Beyond Neural Networks: An Empirical Exploration with Model
Complexity
- arxiv url: http://arxiv.org/abs/2310.17247v1
- Date: Thu, 26 Oct 2023 08:47:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 21:22:25.970499
- Title: Grokking Beyond Neural Networks: An Empirical Exploration with Model
Complexity
- Title(参考訳): ニューラルネットワークを超えたグロッキング:モデル複雑性による経験的探索
- Authors: Jack Miller, Charles O'Neill, Thang Bui
- Abstract要約: グロキング(Grokking)とは、トレーニングセットで同じパフォーマンスを達成した後、ニューラルネットワークが完璧またはほぼ完璧な精度を達成する場所である。
我々は,スプリアス情報を含む次元を付加することにより,アルゴリズムデータセット上でグラッキングを誘導する機構を明らかにする。
具体的には、この現象は、誤差と複雑さの風景における特定の領域のアクセシビリティによって支配されていると仮定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In some settings neural networks exhibit a phenomenon known as grokking,
where they achieve perfect or near-perfect accuracy on the validation set long
after the same performance has been achieved on the training set. In this
paper, we discover that grokking is not limited to neural networks but occurs
in other settings such as Gaussian process (GP) classification, GP regression
and linear regression. We also uncover a mechanism by which to induce grokking
on algorithmic datasets via the addition of dimensions containing spurious
information. The presence of the phenomenon in non-neural architectures
provides evidence that grokking is not specific to SGD or weight norm
regularisation. Instead, grokking may be possible in any setting where solution
search is guided by complexity and error. Based on this insight and further
trends we see in the training trajectories of a Bayesian neural network (BNN)
and GP regression model, we make progress towards a more general theory of
grokking. Specifically, we hypothesise that the phenomenon is governed by the
accessibility of certain regions in the error and complexity landscapes.
- Abstract(参考訳): いくつかの設定では、ニューラルネットワークはgrokkingとして知られる現象を示し、トレーニングセットで同じパフォーマンスが達成された後に、検証セットの完全またはほぼ完全な精度を達成する。
本稿では,グロッキングはニューラルネットワークに限らず,ガウス過程(gp)分類,gp回帰,線形回帰といった他の場面で発生することを見出した。
また,スプリアス情報を含む次元の追加により,アルゴリズムデータセットのグロッキングを誘発するメカニズムを明らかにする。
非神経アーキテクチャにおける現象の存在は、グロクキングがsgdや重み正規化に特異的ではないことを示す。
代わりにgrokkingは、ソリューション検索が複雑さとエラーによってガイドされる任意の環境で可能である。
ベイズ型ニューラルネットワーク(bnn)とgp回帰モデル(gp regression model)のトレーニングトラジェクタにおいて、この知見と今後の傾向に基づいて、より一般的なグロッキング理論に向けて前進する。
具体的には、この現象は、エラーや複雑性の景観における特定の領域のアクセシビリティによって制御されていると仮定する。
関連論文リスト
- Sparse Variational Contaminated Noise Gaussian Process Regression for
Forecasting Geomagnetic Perturbations [4.953938711401618]
本研究では,スパース変分ガウス過程(SVGP)に基づく拡張性推論アルゴリズムを提案する。
提案手法は, 人工ニューラルネットワークベースラインと比較して, 類似のカバレッジと精度の予測間隔が短いことを示す。
論文 参考訳(メタデータ) (2024-02-27T15:08:57Z) - Wide Neural Networks as Gaussian Processes: Lessons from Deep
Equilibrium Models [16.07760622196666]
本研究では,層間における共有重み行列を持つ無限深度ニューラルネットワークであるDeep equilibrium Model (DEQ)について検討する。
解析により,DEC層の幅が無限大に近づくにつれ,ガウス過程に収束することが明らかとなった。
注目すべきは、この収束は深さと幅の限界が交換されても成り立つことである。
論文 参考訳(メタデータ) (2023-10-16T19:00:43Z) - Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文 参考訳(メタデータ) (2023-03-07T18:59:38Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Non-Vacuous Generalisation Bounds for Shallow Neural Networks [5.799808780731661]
我々は、単一の隠蔽層を持つ特定の種類の浅いニューラルネットワークに焦点を当てる。
我々はPAC-ベイジアン理論を通じて新しい一般化を導出する。
ネットワークがMNISTとFashion-MNISTのバニラ勾配勾配降下で訓練される場合,我々の限界は経験的に非空洞である。
論文 参考訳(メタデータ) (2022-02-03T14:59:51Z) - Persistent Homology Captures the Generalization of Neural Networks
Without A Validation Set [0.0]
本稿では,代数的トポロジー,特に永続的ホモロジーを用いたニューラルネットワークのトレーニングについて考察する。
ニューラルネットワークの単純な複雑な表現を用いて、ニューラルネットワーク学習プロセスにおけるPHダイアグラム距離の進化について検討する。
その結果,連続するニューラルネットワーク状態間のPHダイアグラム距離は,検証精度と相関していることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:31Z) - How Neural Networks Extrapolate: From Feedforward to Graph Neural
Networks [80.55378250013496]
勾配勾配降下法によりトレーニングされたニューラルネットワークが、トレーニング分布の支持の外で学んだことを外挿する方法について検討する。
グラフニューラルネットワーク(GNN)は、より複雑なタスクでいくつかの成功を収めている。
論文 参考訳(メタデータ) (2020-09-24T17:48:59Z) - Fast Learning of Graph Neural Networks with Guaranteed Generalizability:
One-hidden-layer Case [93.37576644429578]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから実際に学習する上で、近年大きな進歩を遂げている。
回帰問題と二項分類問題の両方に隠れ層を持つGNNの理論的に基底的な一般化可能性解析を行う。
論文 参考訳(メタデータ) (2020-06-25T00:45:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。