論文の概要: Exploring Grokking: Experimental and Mechanistic Investigations
- arxiv url: http://arxiv.org/abs/2412.10898v1
- Date: Sat, 14 Dec 2024 17:11:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:01:23.198652
- Title: Exploring Grokking: Experimental and Mechanistic Investigations
- Title(参考訳): グローキングの探索 - 実験と機械的考察-
- Authors: Hu Qiye, Zhou Hao, Yu RuoXi,
- Abstract要約: グラッキングは、トレーニングエラーゼロとほぼランダムなテストエラーでトレーニングセットを記憶するニューラルネットワークを含む。
本研究は、広範囲にわたる実験と、グルーキングのメカニズムの背後にある研究の探索を含む。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The phenomenon of grokking in over-parameterized neural networks has garnered significant interest. It involves the neural network initially memorizing the training set with zero training error and near-random test error. Subsequent prolonged training leads to a sharp transition from no generalization to perfect generalization. Our study comprises extensive experiments and an exploration of the research behind the mechanism of grokking. Through experiments, we gained insights into its behavior concerning the training data fraction, the model, and the optimization. The mechanism of grokking has been a subject of various viewpoints proposed by researchers, and we introduce some of these perspectives.
- Abstract(参考訳): 過度にパラメータ化されたニューラルネットワークでグラッキングする現象は、大きな関心を集めている。
ニューラルネットワークは、トレーニングセットをゼロのトレーニングエラーとほぼランダムなテストエラーで記憶する。
その後の長い訓練は、非一般化から完全一般化への急激な移行につながる。
本研究は、広範囲にわたる実験と、グルーキングのメカニズムの背後にある研究の探索を含む。
実験を通じて、トレーニングデータの割合、モデル、最適化に関する振る舞いについて洞察を得た。
グラッキングのメカニズムは研究者によって提案された様々な視点の主題であり、これらの視点をいくつか紹介する。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Spectral Introspection Identifies Group Training Dynamics in Deep Neural Networks for Neuroimaging [16.002859238417223]
本稿では,ニューロイメージングデータの深層学習のための新しいイントロスペクションフレームワークを提案する。
評価に完全訓練モデルを必要とするポストホック検査法とは異なり,本手法はフライ時のトレーニング力学の研究を可能にする。
論文 参考訳(メタデータ) (2024-06-17T17:58:15Z) - A rationale from frequency perspective for grokking in training neural network [7.264378254137811]
グロキング(Grokking)は、ニューラルネットワークNNがトレーニングデータに最初に適合し、後にトレーニング中にテストデータに一般化する現象である。
本稿では,NNにおけるこの現象の出現を説明するための周波数視点を実証的に提示する。
論文 参考訳(メタデータ) (2024-05-24T06:57:23Z) - Repetition In Repetition Out: Towards Understanding Neural Text
Degeneration from the Data Perspective [91.14291142262262]
この研究は、データの観点から、単純で基本的な説明を提示する。
予備調査では, 退化問題とトレーニングデータにおける反復の有無との間には強い相関関係がみられた。
実験の結果,訓練データにおける繰り返しのペナルティ化は,より大きなモデルサイズや命令のチューニングを考慮しても重要な課題であることがわかった。
論文 参考訳(メタデータ) (2023-10-16T09:35:42Z) - Regularization, early-stopping and dreaming: a Hopfield-like setup to
address generalization and overfitting [0.0]
正規化損失関数に勾配降下を適用し,最適ネットワークパラメータを求める。
この枠組みの中で、最適なニューロン相互作用行列は、繰り返し学習プロトコルによって修正されたヘビアン核に対応する。
論文 参考訳(メタデータ) (2023-08-01T15:04:30Z) - Membership Inference Attacks and Defenses in Neural Network Pruning [5.856147967309101]
ニューラルネットワークのプルーニングにおいて、プライバシリスクを初めて分析する。
具体的には,ニューラルネットワークのプルーニングがデータプライバシのトレーニングに与える影響について検討する。
本稿では,予測分岐を緩和し,刈り込みプロセスを保護するための新しい防御機構を提案する。
論文 参考訳(メタデータ) (2022-02-07T16:31:53Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Behavioral Experiments for Understanding Catastrophic Forgetting [9.679643351149215]
実験心理学の手法をニューラルネットワークにおける破滅的忘れの研究に適用する。
本稿では,2層ReLUネットワークを用いた一連の制御実験を行い,破滅的忘れの挙動の新たな理解を明らかにする。
論文 参考訳(メタデータ) (2021-10-20T14:00:02Z) - Learning Neural Causal Models with Active Interventions [83.44636110899742]
本稿では,データ生成プロセスの根底にある因果構造を素早く識別する能動的介入ターゲット機構を提案する。
本手法は,ランダムな介入ターゲティングと比較して,要求される対話回数を大幅に削減する。
シミュレーションデータから実世界のデータまで,複数のベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-06T13:10:37Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。