論文の概要: Egalitarian Gradient Descent: A Simple Approach to Accelerated Grokking
- arxiv url: http://arxiv.org/abs/2510.04930v1
- Date: Mon, 06 Oct 2025 15:40:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.947231
- Title: Egalitarian Gradient Descent: A Simple Approach to Accelerated Grokking
- Title(参考訳): Egalitarian Gradient Descent:Accelerated Grokkingへの簡単なアプローチ
- Authors: Ali Saheb Pasand, Elvis Dohmatob,
- Abstract要約: グラクキングは勾配降下の非対称速度によって引き起こされることを示す。
次に、すべての主方向に沿った力学が全く同じ速度で進化するように勾配を正規化する簡単な修正を提案する。
平等勾配勾配勾配 (EGD) と呼ばれるこの修正法は、自然勾配勾配勾配の慎重に修正された形態とみなすことができ、より高速である。
- 参考スコア(独自算出の注目度): 16.00639294713734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grokking is the phenomenon whereby, unlike the training performance, which peaks early in the training process, the test/generalization performance of a model stagnates over arbitrarily many epochs and then suddenly jumps to usually close to perfect levels. In practice, it is desirable to reduce the length of such plateaus, that is to make the learning process "grok" faster. In this work, we provide new insights into grokking. First, we show both empirically and theoretically that grokking can be induced by asymmetric speeds of (stochastic) gradient descent, along different principal (i.e singular directions) of the gradients. We then propose a simple modification that normalizes the gradients so that dynamics along all the principal directions evolves at exactly the same speed. Then, we establish that this modified method, which we call egalitarian gradient descent (EGD) and can be seen as a carefully modified form of natural gradient descent, groks much faster. In fact, in some cases the stagnation is completely removed. Finally, we empirically show that on classical arithmetic problems such as modular addition and sparse parity problem which this stagnation has been widely observed and intensively studied, that our proposed method eliminates the plateaus.
- Abstract(参考訳): グロッキング(Grokking)は、トレーニングプロセスの初期段階でピークとなるトレーニングパフォーマンスとは異なり、モデルのテスト/一般化パフォーマンスが、任意に多くのエポックを上回り、突然、完全なレベルにジャンプする現象である。
実際には、学習プロセスをより速くするために、そのような高原の長さを減らすことが望ましい。
この研究では、グルーキングに関する新たな洞察を提供する。
まず、グルーキングは勾配の異なる主(特異方向)に沿って、非対称な(確率的な)勾配降下によって引き起こされることを示す。
次に、すべての主方向に沿った力学が全く同じ速度で進化するように勾配を正規化する簡単な修正を提案する。
そして、この修正法は、平等勾配降下法(EGD)と呼ばれ、慎重に修正された自然な勾配降下法として見ることができ、より高速に採集できることを示す。
実際、いくつかのケースでは、停滞は完全に取り除かれます。
最後に、モジュラー加算やスパースパリティ問題のような古典的算術問題において、この停滞が広く観察され、集中的に研究されていることを実証的に示し、提案手法がプラトーを排除していることを示す。
関連論文リスト
- Acceleration and Implicit Regularization in Gaussian Phase Retrieval [5.484345596034159]
この設定では、Polyak や Nesterov の運動量の暗黙的な正規化による手法が、よい凸降下を保証することを証明している。
実験的な証拠は、これらの手法が実際には勾配降下よりも早く収束していることを示している。
論文 参考訳(メタデータ) (2023-11-21T04:10:03Z) - Why is parameter averaging beneficial in SGD? An objective smoothing perspective [13.863368438870562]
勾配降下(SGD)とその暗黙バイアスは、しばしばミニマの鋭さによって特徴づけられる。
Izmailov et alで実証的に観察された一般用平均SGDアルゴリズムについて検討した。
本研究では,SGDの平均値が局所的な局所最小値を回避するスムーズな目的を効率的に最適化できることを証明した。
論文 参考訳(メタデータ) (2023-02-18T16:29:06Z) - Nesterov acceleration despite very noisy gradients [2.048226951354646]
我々はネステロフの加速勾配降下アルゴリズムの一般化を提案する。
AGNESは滑らかな凸と強い凸最小化タスクの加速を達成する。
論文 参考訳(メタデータ) (2023-02-10T21:32:47Z) - Grad-GradaGrad? A Non-Monotone Adaptive Stochastic Gradient Method [17.275654092947647]
そこで我々はGradaGradを紹介した。GradaGradとは,分母の蓄積によって自然に学習率を向上または縮小する手法である。
AdaGradと同様の収束率を示し、実験により非モノトン適応能力を実証する。
論文 参考訳(メタデータ) (2022-06-14T14:55:27Z) - On Training Implicit Models [75.20173180996501]
ファントム勾配(ファントム勾配)と呼ばれる暗黙モデルに対する新しい勾配推定法を提案し、正確な勾配の計算コストを抑える。
大規模タスクの実験では、これらの軽量ファントム勾配が暗黙の訓練モデルの後方通過を約1.7倍加速することを示した。
論文 参考訳(メタデータ) (2021-11-09T14:40:24Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Decreasing scaling transition from adaptive gradient descent to
stochastic gradient descent [1.7874193862154875]
本稿では,適応勾配降下法から勾配勾配降下法DSTAdaへのスケーリング遷移を減少させる手法を提案する。
実験の結果,DSTAdaは高速で精度が高く,安定性と堅牢性も向上した。
論文 参考訳(メタデータ) (2021-06-12T11:28:58Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - A Study of Gradient Variance in Deep Learning [56.437755740715396]
階層化サンプリングによる平均ミニバッチ勾配のばらつきを最小化する手法であるグラディエントクラスタリングを導入する。
我々は、一般的なディープラーニングベンチマークの勾配分散を測定し、一般的な仮定に反して、トレーニング中に勾配分散が増加することを観察する。
論文 参考訳(メタデータ) (2020-07-09T03:23:10Z) - Regularizing Meta-Learning via Gradient Dropout [102.29924160341572]
メタ学習モデルは、メタ学習者が一般化するのに十分なトレーニングタスクがない場合、過度に適合する傾向がある。
本稿では,勾配に基づくメタ学習において過度に適合するリスクを軽減するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2020-04-13T10:47:02Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。