論文の概要: A rationale from frequency perspective for grokking in training neural network
- arxiv url: http://arxiv.org/abs/2405.17479v1
- Date: Fri, 24 May 2024 06:57:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 00:00:30.129520
- Title: A rationale from frequency perspective for grokking in training neural network
- Title(参考訳): ニューラルネットのトレーニングにおける周波数視点によるグルーキングの理論的考察
- Authors: Zhangchen Zhou, Yaoyu Zhang, Zhi-Qin John Xu,
- Abstract要約: グロキング(Grokking)は、ニューラルネットワークNNがトレーニングデータに最初に適合し、後にトレーニング中にテストデータに一般化する現象である。
本稿では,NNにおけるこの現象の出現を説明するための周波数視点を実証的に提示する。
- 参考スコア(独自算出の注目度): 7.264378254137811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grokking is the phenomenon where neural networks NNs initially fit the training data and later generalize to the test data during training. In this paper, we empirically provide a frequency perspective to explain the emergence of this phenomenon in NNs. The core insight is that the networks initially learn the less salient frequency components present in the test data. We observe this phenomenon across both synthetic and real datasets, offering a novel viewpoint for elucidating the grokking phenomenon by characterizing it through the lens of frequency dynamics during the training process. Our empirical frequency-based analysis sheds new light on understanding the grokking phenomenon and its underlying mechanisms.
- Abstract(参考訳): グロキング(Grokking)は、ニューラルネットワークNNがトレーニングデータに最初に適合し、後にトレーニング中にテストデータに一般化する現象である。
本稿では,NNにおけるこの現象の出現を説明するための周波数視点を実証的に提示する。
中心となる洞察は、ネットワークが最初、テストデータに存在するより健全な周波数成分を学習することである。
我々は、この現象を合成データと実データの両方にわたって観察し、学習過程における周波数ダイナミクスのレンズを通して特徴付けることによって、グルーキング現象を解明するための新しい視点を提供する。
実験周波数に基づく分析では、グルーキング現象とその基盤となるメカニズムの理解に新たな光を当てています。
関連論文リスト
- Collective variables of neural networks: empirical time evolution and scaling laws [0.535514140374842]
実験的なニューラル・タンジェント・カーネルのスペクトル、特にエントロピーとトレースのスペクトルに対する特定の測定により、ニューラルネットワークが学習した表現についての洞察が得られることを示す。
結果は、トランスフォーマー、オートエンコーダ、グラフニューラルネットワーク、強化学習研究など、より複雑なネットワークで示される前に、まずテストケースで実証される。
論文 参考訳(メタデータ) (2024-10-09T21:37:14Z) - Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks [59.38765771221084]
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスパイアされた音声認識アーキテクチャを提案する。
本研究では, 終末から終末までの勾配降下訓練が, 中枢スパイク神経ネットワークにおける神経振動の出現に繋がることを示す。
本研究は, スパイク周波数適応やリカレント接続などのフィードバック機構が, 認識性能を向上させるために, 神経活動の調節と同期に重要な役割を担っていることを明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:40:07Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - A Scalable Walsh-Hadamard Regularizer to Overcome the Low-degree
Spectral Bias of Neural Networks [79.28094304325116]
任意の関数を学習するニューラルネットワークの能力にもかかわらず、勾配降下によって訓練されたモデルは、しばしばより単純な関数に対するバイアスを示す。
我々は、この低度周波数に対するスペクトルバイアスが、現実のデータセットにおけるニューラルネットワークの一般化を実際にいかに損なうかを示す。
本稿では,ニューラルネットワークによる高次周波数学習を支援する,スケーラブルな機能正規化手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:06:01Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Testing predictions of representation cost theory with CNNs [5.816527700115096]
我々は、訓練された畳み込みニューラルネットワーク(CNN)が周波数の異なる信号に対して異なる感度を持つことを示す。
これは自然画像の周波数分布の結果であり、その電力の大部分は低中間周波数に集中していることが知られている。
論文 参考訳(メタデータ) (2022-10-03T22:35:43Z) - The Spectral Bias of Polynomial Neural Networks [63.27903166253743]
PNN(Polynomial Neural Network)は、高頻度情報を重要視する画像生成と顔認識に特に有効であることが示されている。
これまでの研究では、ニューラルネットワークが低周波関数に対して$textitspectral bias$を示しており、トレーニング中に低周波成分のより高速な学習をもたらすことが示されている。
このような研究に触発されて、我々はPNNのTangent Kernel(NTK)のスペクトル分析を行う。
我々は、最近提案されたPNNのパラメトリゼーションである$Pi$-Netファミリがスピードアップすることを発見した。
論文 参考訳(メタデータ) (2022-02-27T23:12:43Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Overview frequency principle/spectral bias in deep learning [8.78791231619729]
深層ニューラルネットワーク(DNN)の学習行動の周波数原理(F-Principle)を示す。
F-原則は1次元の合成データによって最初に実証され、続いて高次元の実データセットで検証される。
この低周波バイアスは、低周波関数の学習におけるニューラルネットワークの強みと、高周波関数の学習におけるその欠如を明らかにする。
論文 参考訳(メタデータ) (2022-01-19T03:08:33Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。