論文の概要: Grokking at the Edge of Numerical Stability
- arxiv url: http://arxiv.org/abs/2501.04697v1
- Date: Wed, 08 Jan 2025 18:58:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:57:07.806954
- Title: Grokking at the Edge of Numerical Stability
- Title(参考訳): 数値安定性の端におけるグラッキング
- Authors: Lucas Prieto, Melih Barsbey, Pedro A. M. Mediano, Tolga Birdal,
- Abstract要約: 正規化がなければ、グラッキングタスクはモデルを数値安定性の端まで押し上げます。
我々は,Softmax Collapse (SC) はグラッキングを防止し,緩和SCは正規化せずにグラッキングを可能にすることを示した。
これらの貢献は、グルーキングに関する新たな洞察を与え、その遅れた一般化、正規化への依存、および既存のグルーキング誘導法の有効性を解明する。
- 参考スコア(独自算出の注目度): 15.017152220914161
- License:
- Abstract: Grokking, the sudden generalization that occurs after prolonged overfitting, is a surprising phenomenon challenging our understanding of deep learning. Although significant progress has been made in understanding grokking, the reasons behind the delayed generalization and its dependence on regularization remain unclear. In this work, we argue that without regularization, grokking tasks push models to the edge of numerical stability, introducing floating point errors in the Softmax function, which we refer to as Softmax Collapse (SC). We demonstrate that SC prevents grokking and that mitigating SC enables grokking without regularization. Investigating the root cause of SC, we find that beyond the point of overfitting, the gradients strongly align with what we call the na\"ive loss minimization (NLM) direction. This component of the gradient does not alter the model's predictions but decreases the loss by scaling the logits, typically by scaling the weights along their current direction. We show that this scaling of the logits explains the delay in generalization characteristic of grokking and eventually leads to SC, halting further learning. To validate our hypotheses, we introduce two key contributions that address the challenges in grokking tasks: StableMax, a new activation function that prevents SC and enables grokking without regularization, and $\perp$Grad, a training algorithm that promotes quick generalization in grokking tasks by preventing NLM altogether. These contributions provide new insights into grokking, elucidating its delayed generalization, reliance on regularization, and the effectiveness of existing grokking-inducing methods. Code for this paper is available at https://github.com/LucasPrietoAl/grokking-at-the-edge-of-numerical-stability.
- Abstract(参考訳): 長時間のオーバーフィッティング後に突然起こる一般化であるGrokkingは、ディープラーニングの理解に挑戦する驚くべき現象である。
グルーキングの理解には大きな進歩があったが、一般化の遅れと正規化への依存の背景には、まだ不明な点がある。
この研究において、正規化なしでは、タスクが数値安定性の端にモデルをプッシュし、Softmax関数に浮動小数点誤差を導入し、それをSoftmax Collapse (SC)と呼ぶ。
我々は、SCはグラッキングを防止し、SCの緩和は正規化なしにグラッキングを可能にすることを示した。
SCの根本原因を調べると、過度に適合する点を超えて、勾配は我々が「Na\"ive loss minimization (NLM) 方向と呼ぶものと強く一致することが分かる。
この勾配の成分はモデルの予測を変えるのではなく、ロジットをスケーリングすることで損失を減少させ、通常は現在の方向に沿って重みをスケーリングする。
この拡張は、グルーキングの一般化特性の遅延を説明でき、最終的にはSCにつながり、さらなる学習を停止させる。
我々の仮説を検証するために、SCを予防し、正規化せずにグラキングを可能にする新しいアクティベーション関数であるStableMaxと、NLMを完全に防止してグラキングタスクの迅速な一般化を促進するトレーニングアルゴリズムである$\perp$Gradの2つの主要なコントリビューションを紹介した。
これらの貢献は、グルーキングに関する新たな洞察を与え、その遅れた一般化、正規化への依存、および既存のグルーキング誘導法の有効性を解明する。
この論文のコードはhttps://github.com/LucasPrietoAl/grokking-at-the-edge-of-numerical-stability.comで公開されている。
関連論文リスト
- MLPs at the EOC: Dynamics of Feature Learning [8.430481660019451]
本稿では,勾配降下の収束とそれに伴う特徴の学習を説明する理論を提案する。
このような理論は、安定の端(EOS)やカタパルト機構など、実践者が観察する現象もカバーすべきである。
論文 参考訳(メタデータ) (2025-02-18T18:23:33Z) - Rethinking PGD Attack: Is Sign Function Necessary? [131.6894310945647]
本稿では,このような手話に基づく更新アルゴリズムが段階的攻撃性能にどのように影響するかを理論的に分析する。
本稿では,手話の使用を排除したRGDアルゴリズムを提案する。
提案したRGDアルゴリズムの有効性は実験で広く実証されている。
論文 参考訳(メタデータ) (2023-12-03T02:26:58Z) - Towards the Semantic Weak Generalization Problem in Generative Zero-Shot
Learning: Ante-hoc and Post-hoc [89.68803484284408]
生成ゼロショット学習(ZSL)の性能上限を制限した未探索要素を簡易かつ効果的に削減する戦略を提案する。
まず、意味的一般化を正式に定義し、その後、意味的弱一般化問題を減らそうとするアプローチを検討する。
アンテホック相では、ジェネレータのセマンティック入力を増強し、ジェネレータの適合ターゲットを緩和する。
論文 参考訳(メタデータ) (2022-04-24T13:54:42Z) - Gradient Descent on Neural Networks Typically Occurs at the Edge of
Stability [94.4070247697549]
ニューラルネットワークトレーニング対象に対するフルバッチ勾配降下は、安定性のエッジと呼ばれるレジームで動作します。
この体制では、トレーニング損失 Hessian の最大固有値は2/text(ステップサイズ)$ の数値よりすぐ上にあり、トレーニング損失は短い時間スケールで非単調に振る舞うが、長い時間スケールでは一貫して減少する。
論文 参考訳(メタデータ) (2021-02-26T22:08:19Z) - On the Origin of Implicit Regularization in Stochastic Gradient Descent [22.802683068658897]
勾配降下(SGD)は全バッチ損失関数上の勾配流の経路に従う。
ランダムシャッフルを伴うSGDの場合、学習速度が小さく有限であれば、平均SGDは勾配流の経路に近づいたままである。
損失に暗黙の正則化器を明示的に含めれば、学習率が小さい場合にテスト精度が向上することを確認した。
論文 参考訳(メタデータ) (2021-01-28T18:32:14Z) - Neural Pruning via Growing Regularization [82.9322109208353]
プルーニングの2つの中心的な問題:プルーニングのスケジュールと重み付けの重要度だ。
具体的には, ペナルティ要因が増大するL2正規化変種を提案し, 精度が著しく向上することを示した。
提案アルゴリズムは,構造化プルーニングと非構造化プルーニングの両方において,大規模データセットとネットワークの実装が容易かつスケーラブルである。
論文 参考訳(メタデータ) (2020-12-16T20:16:28Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Preventing Posterior Collapse with Levenshtein Variational Autoencoder [61.30283661804425]
我々は,エビデンス・ロー・バウンド(ELBO)を最適化し,後部崩壊を防止できる新しい目的に置き換えることを提案する。
本稿では,Levenstein VAEが後方崩壊防止のための代替手法よりも,より情報的な潜伏表現を生成することを示す。
論文 参考訳(メタデータ) (2020-04-30T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。