論文の概要: Tracing the Path to Grokking: Embeddings, Dropout, and Network Activation
- arxiv url: http://arxiv.org/abs/2507.11645v1
- Date: Tue, 15 Jul 2025 18:30:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.108894
- Title: Tracing the Path to Grokking: Embeddings, Dropout, and Network Activation
- Title(参考訳): グローキングへの道のり - 埋め込み、ドロップアウト、ネットワーク活性化
- Authors: Ahmed Salah, David Yevick,
- Abstract要約: グロキング(Grokking)とは、トレーニング精度の向上後にニューラルネットワークのテスト精度が向上する遅延一般化のこと。
本稿では, 落下時の分散, 強靭性, 埋め込み類似性, 余剰性など, グルーキングの挙動を予測できる指標をいくつか紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grokking refers to delayed generalization in which the increase in test accuracy of a neural network occurs appreciably after the improvement in training accuracy This paper introduces several practical metrics including variance under dropout, robustness, embedding similarity, and sparsity measures, that can forecast grokking behavior. Specifically, the resilience of neural networks to noise during inference is estimated from a Dropout Robustness Curve (DRC) obtained from the variation of the accuracy with the dropout rate as the model transitions from memorization to generalization. The variance of the test accuracy under stochastic dropout across training checkpoints further exhibits a local maximum during the grokking. Additionally, the percentage of inactive neurons decreases during generalization, while the embeddings tend to a bimodal distribution independent of initialization that correlates with the observed cosine similarity patterns and dataset symmetries. These metrics additionally provide valuable insight into the origin and behaviour of grokking.
- Abstract(参考訳): グロキングは、トレーニング精度の向上後にニューラルネットワークのテスト精度の上昇が良好に起こる遅延一般化を指し、ここでは、グラッキングの挙動を予測可能な、ドロップアウト下の分散、ロバスト性、埋め込み類似性、疎度測定など、いくつかの実践的な指標を紹介する。
具体的には、モデルが記憶から一般化へ遷移するにつれて、精度とドロップアウト率の変動から得られるDropout Robustness Curve(DRC)から、推論中のノイズに対するニューラルネットワークのレジリエンスを推定する。
トレーニングチェックポイント間の確率的ドロップアウト時のテスト精度のばらつきはさらに、グルーキング中に局所的な最大値を示す。
さらに、非活性ニューロンの割合は、一般化の過程で減少する一方、埋め込みは、観測されたコサイン類似パターンやデータセット対称性と相関する初期化とは無関係に、バイモーダル分布を呈する傾向にある。
これらのメトリクスは、グラッキングの起源と振る舞いに関する貴重な洞察を提供する。
関連論文リスト
- Memorization and Regularization in Generative Diffusion Models [5.128303432235475]
拡散モデルは、生成モデリングの強力なフレームワークとして登場した。
この分析は、解析的に抽出可能な最小化器の再生を避けるための正規化の必要性を強調している。
実験は記憶の文脈で評価され、今後の正規化の方向性が強調される。
論文 参考訳(メタデータ) (2025-01-27T05:17:06Z) - Fully Heteroscedastic Count Regression with Deep Double Poisson Networks [4.58556584533865]
Deep Double Poisson Network (DDPN) はニューラル・離散カウント回帰モデルである。
DDPNはヘテロセダスティックガウスモデルと同様の頑健な回帰特性を示す。
多様なデータセットの実験では、DDPNが現在のベースラインを精度、キャリブレーション、アウト・オブ・ディストリビューション検出で上回っていることが示されている。
論文 参考訳(メタデータ) (2024-06-13T16:02:03Z) - Semi-Supervised Deep Sobolev Regression: Estimation and Variable Selection by ReQU Neural Network [3.4623717820849476]
本研究では、下層の回帰関数とその勾配の非パラメトリック推定のための半教師付きディープソボレフ回帰器SDOREを提案する。
我々の研究は、SDOREの収束速度を$L2$-normで徹底的に分析し、ミニマックス最適性を達成することを含む。
論文 参考訳(メタデータ) (2024-01-09T13:10:30Z) - GIT: Detecting Uncertainty, Out-Of-Distribution and Adversarial Samples
using Gradients and Invariance Transformations [77.34726150561087]
本稿では,ディープニューラルネットワークにおける一般化誤差検出のための総合的アプローチを提案する。
GITは勾配情報と不変変換の利用を組み合わせる。
本実験は,各種ネットワークアーキテクチャの最先端技術と比較して,GITの優れた性能を示すものである。
論文 参考訳(メタデータ) (2023-07-05T22:04:38Z) - On double-descent in uncertainty quantification in overparametrized
models [24.073221004661427]
不確かさの定量化は、信頼性と信頼性のある機械学習における中心的な課題である。
最適正規化推定器のキャリブレーション曲線において, 分類精度とキャリブレーションのトレードオフを示す。
これは経験的ベイズ法とは対照的であり、高次一般化誤差と過度パラメトリゼーションにもかかわらず、我々の設定では十分に校正されていることを示す。
論文 参考訳(メタデータ) (2022-10-23T16:01:08Z) - Fluctuations, Bias, Variance & Ensemble of Learners: Exact Asymptotics
for Convex Losses in High-Dimension [25.711297863946193]
我々は、異なる、しかし相関のある特徴に基づいて訓練された一般化線形モデルの集合における揺らぎの研究の理論を開発する。
一般凸損失と高次元限界における正則化のための経験的リスク最小化器の結合分布の完全な記述を提供する。
論文 参考訳(メタデータ) (2022-01-31T17:44:58Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Sampling-free Variational Inference for Neural Networks with
Multiplicative Activation Noise [51.080620762639434]
サンプリングフリー変動推論のための後方近似のより効率的なパラメータ化を提案する。
提案手法は,標準回帰問題に対する競合的な結果をもたらし,大規模画像分類タスクに適している。
論文 参考訳(メタデータ) (2021-03-15T16:16:18Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Regularizing Class-wise Predictions via Self-knowledge Distillation [80.76254453115766]
類似サンプル間の予測分布を解析する新しい正規化法を提案する。
これにより、単一のネットワークの暗黒知識(すなわち誤った予測に関する知識)を規則化する。
画像分類タスクにおける実験結果から, 単純だが強力な手法が一般化能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-03-31T06:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。