論文の概要: Is Grokking a Computational Glass Relaxation?
- arxiv url: http://arxiv.org/abs/2505.11411v1
- Date: Fri, 16 May 2025 16:20:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.576996
- Title: Is Grokking a Computational Glass Relaxation?
- Title(参考訳): グラッキングは計算ガラス緩和か?
- Authors: Xiaotian Zhang, Yue Shang, Entao Yang, Ge Zhang,
- Abstract要約: トレーニング性能がほぼ完璧に到達した後,ニューラルネットワークが突然一般化するグラッキング現象について検討する。
グラッキングの記憶-一般化遷移におけるNOエントロピー障壁は、グラキングを一階相転移と定義する以前の理論に挑戦する。
グラッキングの非平衡な性質に触発され、ワンランダウ分子動力学に基づくおもちゃのWanDを開発し、グラッキングを制約なく排除し、高ノルム一般化解を求めることができる。
- 参考スコア(独自算出の注目度): 7.193952396909214
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding neural network's (NN) generalizability remains a central question in deep learning research. The special phenomenon of grokking, where NNs abruptly generalize long after the training performance reaches a near-perfect level, offers a unique window to investigate the underlying mechanisms of NNs' generalizability. Here we propose an interpretation for grokking by framing it as a computational glass relaxation: viewing NNs as a physical system where parameters are the degrees of freedom and train loss is the system energy, we find memorization process resembles a rapid cooling of liquid into non-equilibrium glassy state at low temperature and the later generalization is like a slow relaxation towards a more stable configuration. This mapping enables us to sample NNs' Boltzmann entropy (states of density) landscape as a function of training loss and test accuracy. Our experiments in transformers on arithmetic tasks suggests that there is NO entropy barrier in the memorization-to-generalization transition of grokking, challenging previous theory that defines grokking as a first-order phase transition. We identify a high-entropy advantage under grokking, an extension of prior work linking entropy to generalizability but much more significant. Inspired by grokking's far-from-equilibrium nature, we develop a toy optimizer WanD based on Wang-landau molecular dynamics, which can eliminate grokking without any constraints and find high-norm generalizing solutions. This provides strictly-defined counterexamples to theory attributing grokking solely to weight norm evolution towards the Goldilocks zone and also suggests new potential ways for optimizer design.
- Abstract(参考訳): ニューラルネットワークの汎用性(NN)を理解することは、ディープラーニング研究の中心的な問題である。
トレーニング性能がほぼ完全なレベルに達した後、NNが突然一般化するグルーキングの特別な現象は、NNの一般化可能性の基盤となるメカニズムを調査するためのユニークな窓を提供する。
NNをパラメータが自由度であり、列車の損失がシステムエネルギーである物理系と見なすと、記憶過程は低温で液体の非平衡ガラス状態への急激な冷却に似ており、後の一般化はより安定した構成への緩やかな緩和のように見える。
このマッピングにより、NNのボルツマンエントロピー(密度状態)のランドスケープをトレーニング損失とテスト精度の関数としてサンプリングすることができる。
算術的タスクにおける変換器の実験は、グラッキングの記憶から一般化への移行においてエントロピー障壁が存在しないことを示唆し、グラキングを一階相転移と定義する以前の理論に挑戦する。
グラッキングの下での高エントロピーの利点は、エントロピーを一般化可能性にリンクする先行作業の拡張であるが、より重要なものである。
グラッキングの非平衡性に触発されて、ワンランダウ分子動力学に基づく玩具オプティマイザWanDを開発した。
これは、ゴルディロックスゾーンへの重み付けノルムの進化のみに起因する理論に対する厳密な反例を提供し、また、オプティマイザ設計の新しい潜在的方法を提案する。
関連論文リスト
- NeuralGrok: Accelerate Grokking by Neural Gradient Transformation [54.65707216563953]
算術的タスクにおける変換器の一般化を高速化する最適勾配変換を学習する勾配に基づく手法であるNeuralGrokを提案する。
実験により,NeuralGrokは一般化を著しく加速することが示された。
また、NeuralGrokはより安定したトレーニングパラダイムを促進し、モデルの複雑さを常に低減します。
論文 参考訳(メタデータ) (2025-04-24T04:41:35Z) - Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking [50.465604300990904]
グロキング(Grokking)とは、オーバーフィッティングの拡張後のテスト精度の急激な改善を指す。
本研究では、素数演算のタスクにおいて、Transformerの基盤となるグルーキング機構について検討する。
論文 参考訳(メタデータ) (2025-04-04T04:42:38Z) - Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Stochastic Collapse: How Gradient Noise Attracts SGD Dynamics Towards Simpler Subnetworks [28.87871359825978]
我々は、過度に表現力のあるネットワークをもっと単純な作業へと駆動する、降下勾配(SGD)の強い暗黙バイアスを明らかにする。
より単純な(疎あるいは低ランクな)作業に対応する不変集合の2つのクラスに焦点を合わせ、現代建築に一般的に現れる。
我々は、訓練されたディープニューラルネットワークにおける魅力的な不変集合の存在を経験的に観察し、SGDのダイナミクスが、冗長なニューロンで単純な処理を消滅させることがしばしばあることを示唆している。
論文 参考訳(メタデータ) (2023-06-07T08:44:51Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - On generalization bounds for deep networks based on loss surface
implicit regularization [5.68558935178946]
現代のディープニューラルネットワークは、多くのパラメータにもかかわらずよく一般化されている。
現在のディープニューラルネットワークは、多くのパラメータが古典的な統計的学習理論と矛盾するにもかかわらず、よく一般化されている。
論文 参考訳(メタデータ) (2022-01-12T16:41:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。