論文の概要: Predicting Grokking Long Before it Happens: A look into the loss
landscape of models which grok
- arxiv url: http://arxiv.org/abs/2306.13253v2
- Date: Mon, 17 Jul 2023 17:05:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 21:52:34.895800
- Title: Predicting Grokking Long Before it Happens: A look into the loss
landscape of models which grok
- Title(参考訳): グルーキングが長くなる前に予測:グルークしたモデルの損失景観を考察
- Authors: Pascal Jr. Tikeng Notsawo and Hattie Zhou and Mohammad Pezeshki and
Irina Rish and Guillaume Dumas
- Abstract要約: グラッキング(英: grokking)とは、過度な適合や記憶の兆候が観測された後に、完全な一般化が長く現れる現象である。
本稿では,多くのエポックを訓練せずにグルーキングを予測するための低コストな手法を提案する。
- 参考スコア(独自算出の注目度): 7.556171610248398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper focuses on predicting the occurrence of grokking in neural
networks, a phenomenon in which perfect generalization emerges long after signs
of overfitting or memorization are observed. It has been reported that grokking
can only be observed with certain hyper-parameters. This makes it critical to
identify the parameters that lead to grokking. However, since grokking occurs
after a large number of epochs, searching for the hyper-parameters that lead to
it is time-consuming. In this paper, we propose a low-cost method to predict
grokking without training for a large number of epochs. In essence, by studying
the learning curve of the first few epochs, we show that one can predict
whether grokking will occur later on. Specifically, if certain oscillations
occur in the early epochs, one can expect grokking to occur if the model is
trained for a much longer period of time. We propose using the spectral
signature of a learning curve derived by applying the Fourier transform to
quantify the amplitude of low-frequency components to detect the presence of
such oscillations. We also present additional experiments aimed at explaining
the cause of these oscillations and characterizing the loss landscape.
- Abstract(参考訳): 本稿では,ニューラルネットワークにおけるグロッキング発生の予測に焦点をあてて,過失や記憶の徴候が観測された後に,完全一般化が出現する現象について述べる。
グローキングは特定のハイパーパラメータでしか観測できないと報告されている。
これにより、グロッキングにつながるパラメータを特定することが重要になる。
しかし、グロッキングは多数のエポックの後に起こるため、それにつながるハイパーパラメータの探索は時間がかかる。
本稿では,多数のエポックを訓練することなくグロッキングを予測するための低コストな手法を提案する。
基本的には,最初の数回の時間軸の学習曲線を研究することによって,グロッキングが後に起こるかどうかを予測できることを示す。
具体的には、特定の振動が初期エポックで発生した場合、モデルがより長い時間トレーニングされた場合、グロッキングが起こると期待できる。
本研究では,フーリエ変換を適用した学習曲線のスペクトルシグネチャを用いて低周波成分の振幅を定量化し,その振動の存在を検出する。
また,これらの振動の原因を説明し,損失景観を特徴付ける実験も実施する。
関連論文リスト
- Understanding Warmup-Stable-Decay Learning Rates: A River Valley Loss Landscape Perspective [66.80315289020487]
Warmup-Stable-Decay (WSD) スケジュールは、一定の学習率を使用して、所定の計算予算なしで無限に継続できるイテレーションのメインブランチを生成する。
プレトレーニング損失は,河底に川がある深い谷に類似した河谷景観を呈することを示す。
この理論にインスパイアされたWSD-Sは、従来のチェックポイントの崩壊フェーズを再利用し、メインブランチを1つだけ保持するWSDの変種である。
論文 参考訳(メタデータ) (2024-10-07T16:49:39Z) - A Study of Posterior Stability for Time-Series Latent Diffusion [59.41969496514184]
まず,後部崩壊により可変オートエンコーダ(VAE)への潜伏拡散が減少し,表現性が低下することを示す。
次に、入力変数に対するリカレントデコーダの感度を定量化する、依存性測度という原則的手法を導入する。
理論的および実証的研究に基づいて,潜伏拡散を延長し,後部が安定な新しい枠組みを導入する。
論文 参考訳(メタデータ) (2024-05-22T21:54:12Z) - Dichotomy of Early and Late Phase Implicit Biases Can Provably Induce Grokking [81.57031092474625]
Powerらによる最近の研究は、算術のタスクを学習する際の驚くべき"グロキング"現象を強調した。
ニューラルネットワークはまずトレーニングセットを“記憶”し、完全なトレーニング精度を持つが、ほぼランダムなテスト精度を実現する。
本論文は, 理論設定におけるグルーキング現象を考察し, 初期および後期の暗黙バイアスの2分法により誘導可能であることを示す。
論文 参考訳(メタデータ) (2023-11-30T18:55:38Z) - Understanding Grokking Through A Robustness Viewpoint [3.23379981095083]
ニューラルネットワークの一般的な$l$ノルム(メトリック)は、実際にはグルークするのに十分な条件であることを示す。
我々は、ロバストネスと情報理論に基づく新しいメトリクスを提案し、我々の新しいメトリクスがグラッキング現象とよく相関し、グラッキングを予測するのに使用できることを発見した。
論文 参考訳(メタデータ) (2023-11-11T15:45:44Z) - Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。
例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。
SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文 参考訳(メタデータ) (2022-10-26T21:03:46Z) - Grokking phase transitions in learning local rules with gradient descent [0.0]
グルーキングは相転移であり、臨界指数、グルーキング確率、グルーキング時間分布の正確な解析式を求める。
構造形成とグルーキングの関係を数値解析する。
論文 参考訳(メタデータ) (2022-10-26T11:07:04Z) - When and how epochwise double descent happens [7.512375012141203]
急激な二重降下効果は、一般化誤差が最初は減少し、その後上昇し、最終的にトレーニング時間の増加とともに再び低下する。
このことは、訓練に要する時間の長さが長く、検証性能に基づく早期停止が準最適一般化をもたらすという現実的な問題である。
本研究は, 急激な二重降下は騒音発生に要するが, 第2の臨界騒音レベル以上の早期停止は有効であることを示す。
論文 参考訳(メタデータ) (2021-08-26T19:19:17Z) - Interval-censored Hawkes processes [82.87738318505582]
本研究では,Hawkesプロセスのパラメータを間隔制限設定で推定するモデルを提案する。
我々は、ホークス族に対する非均質近似が、間隔検閲された設定において牽引可能な可能性を認めている方法を示す。
論文 参考訳(メタデータ) (2021-04-16T07:29:04Z) - Gaussian Processes with Skewed Laplace Spectral Mixture Kernels for
Long-term Forecasting [11.729971911409637]
長期的な予測には、最後の観測よりもはるかに先にある地平線を予測することが含まれる。
そこで本研究では,スキュードラプラススペクトル混合物(SLSM)を用いたスペクトル密度のモデル化について提案する。
さらに,当初ニューラルネットワークの重み付けのために開発された宝くじをGPに適応させ,カーネルコンポーネントの数を自動選択する。
論文 参考訳(メタデータ) (2020-11-08T13:03:59Z) - Point process models for sequence detection in high-dimensional neural
spike trains [29.073129195368235]
本研究では,個々のスパイクレベルにおける微細なシーケンスを特徴付ける点過程モデルを開発する。
この超スパースなシーケンスイベント表現は、スパイクトレインモデリングの新しい可能性を開く。
論文 参考訳(メタデータ) (2020-10-10T02:21:44Z) - Explicit Regularisation in Gaussian Noise Injections [64.11680298737963]
ガウスノイズインジェクション(GNI)によるニューラルネットワークの正規化の検討
GNIの明示的な正則化を導出する。
このような正規化は、大きな分類マージンを持つ校正分類器を生成することを分析的かつ実証的に示す。
論文 参考訳(メタデータ) (2020-07-14T21:29:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。