論文の概要: On the Convergence Behavior of Preconditioned Gradient Descent Toward the Rich Learning Regime
- arxiv url: http://arxiv.org/abs/2601.03162v1
- Date: Tue, 06 Jan 2026 16:35:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.024208
- Title: On the Convergence Behavior of Preconditioned Gradient Descent Toward the Rich Learning Regime
- Title(参考訳): 事前条件付きグラディエントのリッチラーニングレジームへの収束挙動について
- Authors: Shuai Jiang, Alexey Voronin, Eric Cyr, Ben Southworth,
- Abstract要約: 本稿では,プリコンディショニング勾配降下(PGD)がスペクトルバイアスやグルーキング現象に与える影響について検討する。
豊かな学習体制のグラッキング仮説に基づいて、グラッキングに伴う遅延を軽減するためにPGDをどのように使用できるかを研究する。
- 参考スコア(独自算出の注目度): 3.2689943278186537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spectral bias, the tendency of neural networks to learn low frequencies first, can be both a blessing and a curse. While it enhances the generalization capabilities by suppressing high-frequency noise, it can be a limitation in scientific tasks that require capturing fine-scale structures. The delayed generalization phenomenon known as grokking is another barrier to rapid training of neural networks. Grokking has been hypothesized to arise as learning transitions from the NTK to the feature-rich regime. This paper explores the impact of preconditioned gradient descent (PGD), such as Gauss-Newton, on spectral bias and grokking phenomena. We demonstrate through theoretical and empirical results how PGD can mitigate issues associated with spectral bias. Additionally, building on the rich learning regime grokking hypothesis, we study how PGD can be used to reduce delays associated with grokking. Our conjecture is that PGD, without the impediment of spectral bias, enables uniform exploration of the parameter space in the NTK regime. Our experimental results confirm this prediction, providing strong evidence that grokking represents a transitional behavior between the lazy regime characterized by the NTK and the rich regime. These findings deepen our understanding of the interplay between optimization dynamics, spectral bias, and the phases of neural network learning.
- Abstract(参考訳): ニューラルネットワークがまず低周波を学習する傾向にあるスペクトルバイアスは、祝福と呪いの両方である。
高周波ノイズを抑えることで一般化能力を高めるが、微細な構造を捉える必要のある科学的タスクには限界がある。
グラッキングとして知られる遅延一般化現象は、ニューラルネットワークの迅速なトレーニングの障壁である。
グローキングはNTKから機能豊富な体制への学習の移行として起こると仮定されている。
本稿では,ガウス・ニュートンのようなプレコンディショニング勾配降下(PGD)がスペクトルバイアスやグルーキング現象に与える影響について検討する。
我々は、PGDがスペクトルバイアスにかかわる問題を緩和する方法を理論的および実証的な結果を通して示す。
さらに、豊かな学習体制のグラッキング仮説に基づいて、グラッキングに伴う遅延を軽減するためにPGDをどのように使用できるかを検討する。
我々の予想では、PGDはスペクトルバイアスの障害を伴わず、NTK系におけるパラメータ空間の均一な探索を可能にしている。
この予測は,NTKとリッチ・レジームを特徴とする遅延型レジーム間の過渡的挙動をグルーキングが表現していることを示すものである。
これらの知見は、最適化力学、スペクトルバイアス、ニューラルネットワーク学習のフェーズ間の相互作用の理解を深めます。
関連論文リスト
- Grokking Beyond Neural Networks: An Empirical Exploration with Model Complexity [0.0]
いくつかの設定では、ニューラルネットワークはTextitgrokkingと呼ばれる現象を示し、トレーニングセットで同じパフォーマンスが達成されてからずっと経ってから、検証セット上で完璧またはほぼ完璧に精度を達成している。
本稿では,グルーキングがニューラルネットワークに限らず,GP分類,GP回帰,線形回帰,ベイズニューラルネットワークなどの他の設定で発生することを明らかにする。
論文 参考訳(メタデータ) (2023-10-26T08:47:42Z) - Towards Demystifying the Generalization Behaviors When Neural Collapse
Emerges [132.62934175555145]
Neural Collapse(NC)は、トレーニング末期(TPT)におけるディープニューラルネットワークのよく知られた現象である
本稿では,列車の精度が100%に達した後も,継続訓練がテストセットの精度向上に繋がる理由を理論的に説明する。
我々はこの新たに発見された性質を「非保守的一般化」と呼ぶ。
論文 参考訳(メタデータ) (2023-10-12T14:29:02Z) - On the Asymptotic Learning Curves of Kernel Ridge Regression under
Power-law Decay [17.306230523610864]
ノイズレベルが小さい場合のみ、非常に広いニューラルネットワークに「良性オーバーフィッティング現象」が存在することを示す。
この現象は,ノイズレベルが小さい場合にのみ,非常に広いニューラルネットワークに存在することが示唆された。
論文 参考訳(メタデータ) (2023-09-23T11:18:13Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - A Scalable Walsh-Hadamard Regularizer to Overcome the Low-degree
Spectral Bias of Neural Networks [79.28094304325116]
任意の関数を学習するニューラルネットワークの能力にもかかわらず、勾配降下によって訓練されたモデルは、しばしばより単純な関数に対するバイアスを示す。
我々は、この低度周波数に対するスペクトルバイアスが、現実のデータセットにおけるニューラルネットワークの一般化を実際にいかに損なうかを示す。
本稿では,ニューラルネットワークによる高次周波数学習を支援する,スケーラブルな機能正規化手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:06:01Z) - Understanding the Spectral Bias of Coordinate Based MLPs Via Training
Dynamics [2.9443230571766854]
本稿では,ReLUネットワークの計算結果と勾配勾配収束速度の関連性について検討する。
次に、この定式化を用いて、低次元設定におけるスペクトルバイアスの重症度と位置符号化がこれを克服する方法について研究する。
論文 参考訳(メタデータ) (2023-01-14T04:21:25Z) - Momentum Diminishes the Effect of Spectral Bias in Physics-Informed
Neural Networks [72.09574528342732]
物理インフォームドニューラルネットワーク(PINN)アルゴリズムは、偏微分方程式(PDE)を含む幅広い問題を解く上で有望な結果を示している。
彼らはしばしば、スペクトルバイアスと呼ばれる現象のために、ターゲット関数が高周波の特徴を含むとき、望ましい解に収束しない。
本研究は, 運動量による勾配降下下で進化するPINNのトレーニングダイナミクスを, NTK(Neural Tangent kernel)を用いて研究するものである。
論文 参考訳(メタデータ) (2022-06-29T19:03:10Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。