Fugu-MT 論文翻訳(概要): Grokking Beyond Neural Networks: An Empirical Exploration with Model Complexity

論文の概要: Grokking Beyond Neural Networks: An Empirical Exploration with Model Complexity

arxiv url: http://arxiv.org/abs/2310.17247v1
Date: Thu, 26 Oct 2023 08:47:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-27 21:22:25.970499
Title: Grokking Beyond Neural Networks: An Empirical Exploration with Model Complexity
Title（参考訳）: ニューラルネットワークを超えたグロッキング:モデル複雑性による経験的探索
Authors: Jack Miller, Charles O'Neill, Thang Bui
Abstract要約: グロキング(Grokking)とは、トレーニングセットで同じパフォーマンスを達成した後、ニューラルネットワークが完璧またはほぼ完璧な精度を達成する場所である。我々は,スプリアス情報を含む次元を付加することにより,アルゴリズムデータセット上でグラッキングを誘導する機構を明らかにする。具体的には、この現象は、誤差と複雑さの風景における特定の領域のアクセシビリティによって支配されていると仮定する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In some settings neural networks exhibit a phenomenon known as grokking, where they achieve perfect or near-perfect accuracy on the validation set long after the same performance has been achieved on the training set. In this paper, we discover that grokking is not limited to neural networks but occurs in other settings such as Gaussian process (GP) classification, GP regression and linear regression. We also uncover a mechanism by which to induce grokking on algorithmic datasets via the addition of dimensions containing spurious information. The presence of the phenomenon in non-neural architectures provides evidence that grokking is not specific to SGD or weight norm regularisation. Instead, grokking may be possible in any setting where solution search is guided by complexity and error. Based on this insight and further trends we see in the training trajectories of a Bayesian neural network (BNN) and GP regression model, we make progress towards a more general theory of grokking. Specifically, we hypothesise that the phenomenon is governed by the accessibility of certain regions in the error and complexity landscapes.
Abstract（参考訳）: いくつかの設定では、ニューラルネットワークはgrokkingとして知られる現象を示し、トレーニングセットで同じパフォーマンスが達成された後に、検証セットの完全またはほぼ完全な精度を達成する。本稿では,グロッキングはニューラルネットワークに限らず,ガウス過程(gp)分類,gp回帰,線形回帰といった他の場面で発生することを見出した。また,スプリアス情報を含む次元の追加により,アルゴリズムデータセットのグロッキングを誘発するメカニズムを明らかにする。非神経アーキテクチャにおける現象の存在は、グロクキングがsgdや重み正規化に特異的ではないことを示す。代わりにgrokkingは、ソリューション検索が複雑さとエラーによってガイドされる任意の環境で可能である。ベイズ型ニューラルネットワーク(bnn)とgp回帰モデル(gp regression model)のトレーニングトラジェクタにおいて、この知見と今後の傾向に基づいて、より一般的なグロッキング理論に向けて前進する。具体的には、この現象は、エラーや複雑性の景観における特定の領域のアクセシビリティによって制御されていると仮定する。

関連論文リスト

neuralGAM: An R Package for Fitting Generalized Additive Neural Networks [0.0]
ニューラルGAMパッケージは、一般化付加モデルに基づくニューラルネットワークトポロジーを実装している。このパッケージは、Generalized Additive Neural Networksをトレーニングするための柔軟なフレームワークを提供する。合成データと実データの両方において、NeuralGAMパッケージの使用について説明する。
論文参考訳（メタデータ） (2025-05-13T14:30:01Z)
Scalable Bayesian Inference in the Era of Deep Learning: From Gaussian Processes to Deep Neural Networks [0.5827521884806072]
大規模なデータセットでトレーニングされた大規模なニューラルネットワークは、マシンラーニングの主要なパラダイムになっています。この論文は、モデル不確実性を持つニューラルネットワークを装備するためのスケーラブルな手法を開発する。
論文参考訳（メタデータ） (2024-04-29T23:38:58Z)
Approximation with Random Shallow ReLU Networks with Applications to Model Reference Adaptive Control [0.0]
ランダムに生成される重みとバイアスを持つReLUネットワークは、高い確率で$O(m-1/2)$の誤りを生じることを示す。本稿では,モデル参照適応制御アプリケーションにおいて,必要な精度を近似するために,その結果をどのように利用できるかを示す。
論文参考訳（メタデータ） (2024-03-25T19:39:17Z)
Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文参考訳（メタデータ） (2024-03-18T18:01:01Z)
Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文参考訳（メタデータ） (2023-07-20T13:34:11Z)
From NeurODEs to AutoencODEs: a mean-field control framework for width-varying Neural Networks [68.8204255655161]
本稿では,動的に駆動する制御フィールドをベースとした,AutoencODEと呼ばれる新しいタイプの連続時間制御システムを提案する。損失関数が局所凸な領域では,多くのアーキテクチャが復元可能であることを示す。
論文参考訳（メタデータ） (2023-07-05T13:26:17Z)
Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文参考訳（メタデータ） (2023-03-07T18:59:38Z)
Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文参考訳（メタデータ） (2022-02-01T17:11:13Z)
A Kernel-Expanded Stochastic Neural Network [10.837308632004644]
ディープニューラルネットワークは、トレーニングにおいて、しばしばローカルな最小限に閉じ込められる。新しいカーネル拡張ニューラルネットワーク(K-StoNet)モデルは、潜在変数モデルとしてネットワークを再構成する。モデルは命令正規化最適化(IRO)アルゴリズムを用いて容易に訓練することができる。
論文参考訳（メタデータ） (2022-01-14T06:42:42Z)
Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set [0.0]
本稿では,代数的トポロジー,特に永続的ホモロジーを用いたニューラルネットワークのトレーニングについて考察する。ニューラルネットワークの単純な複雑な表現を用いて、ニューラルネットワーク学習プロセスにおけるPHダイアグラム距離の進化について検討する。その結果,連続するニューラルネットワーク状態間のPHダイアグラム距離は,検証精度と相関していることがわかった。
論文参考訳（メタデータ） (2021-05-31T09:17:31Z)
How Neural Networks Extrapolate: From Feedforward to Graph Neural Networks [80.55378250013496]
勾配勾配降下法によりトレーニングされたニューラルネットワークが、トレーニング分布の支持の外で学んだことを外挿する方法について検討する。グラフニューラルネットワーク(GNN)は、より複雑なタスクでいくつかの成功を収めている。
論文参考訳（メタデータ） (2020-09-24T17:48:59Z)
Modeling from Features: a Mean-field Framework for Over-parameterized Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文参考訳（メタデータ） (2020-07-03T01:37:16Z)
Bayesian Neural Networks [0.0]
ニューラルネットワークによる予測におけるエラーを原理的に得る方法を示し、これらのエラーを特徴付ける2つの方法を提案する。さらに、これらの2つのメソッドが実際に実施される際に、重大な落とし穴を持つ方法についても説明します。
論文参考訳（メタデータ） (2020-06-02T09:43:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。