論文の概要: Emergence in non-neural models: grokking modular arithmetic via average gradient outer product
- arxiv url: http://arxiv.org/abs/2407.20199v1
- Date: Mon, 29 Jul 2024 17:28:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 12:55:07.169487
- Title: Emergence in non-neural models: grokking modular arithmetic via average gradient outer product
- Title(参考訳): 非神経モデルにおける創発性:平均勾配外積によるモジュラー算術
- Authors: Neil Mallinar, Daniel Beaglehole, Libin Zhu, Adityanarayanan Radhakrishnan, Parthe Pandit, Mikhail Belkin,
- Abstract要約: グラッキングはニューラルネットワークや勾配降下に基づく最適化に特有ではないことを示す。
この現象はRecursive Feature Machinesを用いてモジュラー算術を学習する際に発生する。
この結果から,タスク関連の特徴を学習することで,創発が純粋に引き起こされることが示された。
- 参考スコア(独自算出の注目度): 16.911836722312152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks trained to solve modular arithmetic tasks exhibit grokking, a phenomenon where the test accuracy starts improving long after the model achieves 100% training accuracy in the training process. It is often taken as an example of "emergence", where model ability manifests sharply through a phase transition. In this work, we show that the phenomenon of grokking is not specific to neural networks nor to gradient descent-based optimization. Specifically, we show that this phenomenon occurs when learning modular arithmetic with Recursive Feature Machines (RFM), an iterative algorithm that uses the Average Gradient Outer Product (AGOP) to enable task-specific feature learning with general machine learning models. When used in conjunction with kernel machines, iterating RFM results in a fast transition from random, near zero, test accuracy to perfect test accuracy. This transition cannot be predicted from the training loss, which is identically zero, nor from the test loss, which remains constant in initial iterations. Instead, as we show, the transition is completely determined by feature learning: RFM gradually learns block-circulant features to solve modular arithmetic. Paralleling the results for RFM, we show that neural networks that solve modular arithmetic also learn block-circulant features. Furthermore, we present theoretical evidence that RFM uses such block-circulant features to implement the Fourier Multiplication Algorithm, which prior work posited as the generalizing solution neural networks learn on these tasks. Our results demonstrate that emergence can result purely from learning task-relevant features and is not specific to neural architectures nor gradient descent-based optimization methods. Furthermore, our work provides more evidence for AGOP as a key mechanism for feature learning in neural networks.
- Abstract(参考訳): モジュラー演算タスクを解くために訓練されたニューラルネットワークは、モデルがトレーニングプロセスで100%のトレーニング精度を達成した後、テスト精度が長く改善し始める現象であるグラッキングを示す。
モデル能力は相転移を通じて急激に現れます。
本研究では,グルーキング現象はニューラルネットワークや勾配降下に基づく最適化に特有ではないことを示す。
具体的には、一般的な機械学習モデルを用いてタスク固有の特徴学習を可能にするために、平均勾配外積(AGOP)を用いた反復アルゴリズムであるRecursive Feature Machines (RFM) を用いてモジュラー算術を学習する際に、この現象が生じることを示す。
カーネルマシンと組み合わせて使用すると、RCMを繰り返すと、ランダムにほぼゼロに近いテスト精度から完全なテスト精度へ素早く移行する。
この移行は、同じゼロのトレーニング損失や、初期イテレーションで一定であるテスト損失から予測することはできない。
RFMは徐々にブロック循環機能を学び、モジュラー演算を解く。
RFMの結果と並行して、モジュラー演算を解くニューラルネットワークもブロック循環の特徴を学習することを示した。
さらに, ニューラルネットワークがこれらの課題から学習する一般化解として提案されるフーリエ乗算アルゴリズムの実装に, RFMがそのようなブロック循環的特徴を用いるという理論的証拠を示す。
この結果から,出現はタスク関連の特徴を学習することによるものであり,ニューラルアーキテクチャや勾配降下に基づく最適化手法に特有ではないことが示唆された。
さらに、我々の研究は、ニューラルネットワークにおける特徴学習の鍵となるメカニズムとしてAGOPのさらなる証拠を提供する。
関連論文リスト
- Linearization Turns Neural Operators into Function-Valued Gaussian Processes [23.85470417458593]
ニューラル作用素におけるベイズの不確かさを近似する新しい枠組みを導入する。
我々の手法は関数型プログラミングからカリー化の概念の確率論的類似体と解釈できる。
我々は、異なるタイプの偏微分方程式への応用を通して、我々のアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-06-07T16:43:54Z) - Neural Network-Based Score Estimation in Diffusion Models: Optimization
and Generalization [12.812942188697326]
拡散モデルは、忠実さ、柔軟性、堅牢性を改善した高品質なサンプルを生成する際に、GANと競合する強力なツールとして登場した。
これらのモデルの主要な構成要素は、スコアマッチングを通じてスコア関数を学ぶことである。
様々なタスクにおいて経験的な成功にもかかわらず、勾配に基づくアルゴリズムが証明可能な精度でスコア関数を学習できるかどうかは不明である。
論文 参考訳(メタデータ) (2024-01-28T08:13:56Z) - Linear Recursive Feature Machines provably recover low-rank matrices [17.530511273384786]
我々は、RFMが次元還元を行うための最初の理論的保証を開発する。
反復重み付き最小二乗法 (IRLS) アルゴリズムを一般化する。
我々の結果は、ニューラルネットワークにおける特徴学習と古典的なスパースリカバリアルゴリズムの関連性に光を当てた。
論文 参考訳(メタデータ) (2024-01-09T13:44:12Z) - Nonlinear functional regression by functional deep neural network with
kernel embedding [20.306390874610635]
本稿では,効率的かつ完全なデータ依存型次元減少法を備えた機能的ディープニューラルネットワークを提案する。
機能ネットのアーキテクチャは、カーネル埋め込みステップ、プロジェクションステップ、予測のための深いReLUニューラルネットワークで構成される。
スムーズなカーネル埋め込みを利用することで、我々の関数ネットは離散化不変であり、効率的で、頑健でノイズの多い観測が可能となる。
論文 参考訳(メタデータ) (2024-01-05T16:43:39Z) - Diffusion-Model-Assisted Supervised Learning of Generative Models for
Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。
スコアベース拡散モデルを用いてラベル付きデータを生成する。
ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文 参考訳(メタデータ) (2023-10-22T23:56:19Z) - Permutation Equivariant Neural Functionals [92.0667671999604]
この研究は、他のニューラルネットワークの重みや勾配を処理できるニューラルネットワークの設計を研究する。
隠れた層状ニューロンには固有の順序がないため, 深いフィードフォワードネットワークの重みに生じる置換対称性に着目する。
実験の結果, 置換同変ニューラル関数は多種多様なタスクに対して有効であることがわかった。
論文 参考訳(メタデータ) (2023-02-27T18:52:38Z) - A Recursively Recurrent Neural Network (R2N2) Architecture for Learning
Iterative Algorithms [64.3064050603721]
本研究では,リカレントニューラルネットワーク (R2N2) にランゲ・クッタニューラルネットワークを一般化し,リカレントニューラルネットワークを最適化した反復アルゴリズムの設計を行う。
本稿では, 線形方程式系に対するクリロフ解法, 非線形方程式系に対するニュートン・クリロフ解法, 常微分方程式に対するルンゲ・クッタ解法と類似の繰り返しを計算問題クラスの入力・出力データに対して提案した超構造内における重みパラメータの正規化について述べる。
論文 参考訳(メタデータ) (2022-11-22T16:30:33Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Inducing Gaussian Process Networks [80.40892394020797]
本稿では,特徴空間と誘導点を同時に学習するシンプルなフレームワークであるGaussian Process Network (IGN)を提案する。
特に誘導点は特徴空間で直接学習され、複雑な構造化領域のシームレスな表現を可能にする。
実世界のデータセットに対する実験結果から,IGNは最先端の手法よりも大幅に進歩していることを示す。
論文 参考訳(メタデータ) (2022-04-21T05:27:09Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Training Feedback Spiking Neural Networks by Implicit Differentiation on
the Equilibrium State [66.2457134675891]
スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、ニューロモルフィックハードウェア上でエネルギー効率の高い実装を可能にする脳にインスパイアされたモデルである。
既存のほとんどの手法は、人工ニューラルネットワークのバックプロパゲーションフレームワークとフィードフォワードアーキテクチャを模倣している。
本稿では,フォワード計算の正逆性に依存しない新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T07:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。