論文の概要: Using physics-inspired Singular Learning Theory to understand grokking & other phase transitions in modern neural networks
- arxiv url: http://arxiv.org/abs/2512.00686v2
- Date: Tue, 02 Dec 2025 05:04:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 14:50:32.076549
- Title: Using physics-inspired Singular Learning Theory to understand grokking & other phase transitions in modern neural networks
- Title(参考訳): 物理に着想を得た特異学習理論を用いた現代のニューラルネットワークにおけるグルーキングやその他の相転移の理解
- Authors: Anish Lakkapragada,
- Abstract要約: 本研究では,解釈可能性と相転移に関連する玩具設定における特異学習理論(SLT)について検討する。
本稿では、ニューラルネットワークの相転移を理解する上でのSLTの多くのメリットを概説し、この分野にオープンな研究課題を提起する。
- 参考スコア(独自算出の注目度): 0.913755431537592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classical statistical inference and learning theory often fail to explain the success of modern neural networks. A key reason is that these models are non-identifiable (singular), violating core assumptions behind PAC bounds and asymptotic normality. Singular learning theory (SLT), a physics-inspired framework grounded in algebraic geometry, has gained popularity for its ability to close this theory-practice gap. In this paper, we empirically study SLT in toy settings relevant to interpretability and phase transitions. First, we understand the SLT free energy $\mathcal{F}_n$ by testing an Arrhenius-style rate hypothesis using both a grokking modulo-arithmetic model and Anthropic's Toy Models of Superposition. Second, we understand the local learning coefficient $λ_α$ by measuring how it scales with problem difficulty across several controlled network families (polynomial regressors, low-rank linear networks, and low-rank autoencoders). Our experiments recover known scaling laws while others yield meaningful deviations from theoretical expectations. Overall, our paper illustrates the many merits of SLT for understanding neural network phase transitions, and poses open research questions for the field.
- Abstract(参考訳): 古典的な統計的推論と学習理論は、しばしば現代のニューラルネットワークの成功を説明するのに失敗する。
主な理由は、これらのモデルが不特定(特異)であり、PAC境界と漸近正規性の背後にあるコア仮定に違反するからである。
SLT(Singular Learning Theory)は、代数幾何学に基礎を置く物理に着想を得たフレームワークであり、この理論と実践的ギャップを埋める能力で人気を集めている。
本稿では,SLTを解釈性と相転移に関連する玩具環境で実証研究する。
まず、Groking modulo-arithmetic model と Anthropic's Toy Models of Superposition を用いてアレニウス型速度仮説をテストすることにより、SLT自由エネルギー $\mathcal{F}_n$ を理解する。
第二に、局所学習係数$λ_α$は、複数の制御されたネットワークファミリー(多項式回帰器、低ランク線形ネットワーク、低ランクオートエンコーダ)の問題をいかにスケールするかを測定することで理解する。
我々の実験は既知のスケーリング法則を回復し、他の実験は理論的な期待から有意義な偏差をもたらす。
本稿では、ニューラルネットワークの相転移を理解する上でのSLTのメリットを概説し、この分野にオープンな研究課題を提起する。
関連論文リスト
- A Near Complete Nonasymptotic Generalization Theory For Multilayer Neural Networks: Beyond the Bias-Variance Tradeoff [57.25901375384457]
任意のリプシッツ活性化と一般リプシッツ損失関数を持つ多層ニューラルネットワークに対する漸近一般化理論を提案する。
特に、文献でよく見られるように、損失関数の有界性を必要としない。
回帰問題に対する多層ReLUネットワークに対する理論の極小最適性を示す。
論文 参考訳(メタデータ) (2025-03-03T23:34:12Z) - Feature Learning Beyond the Edge of Stability [8.430481660019451]
層幅パターンを隠蔽した均一な多層パーセプトロンパラメタライゼーションを提案し、勾配勾配下でのトレーニングダイナミクスを解析する。
訓練中の最小バッチ損失の最初の3つのTaylor係数について,シャープネスと特徴学習の関連性を示す式を得る。
論文 参考訳(メタデータ) (2025-02-18T18:23:33Z) - Deep learning lattice gauge theories [0.0]
ニューラルネットワーク量子状態を用いて格子ゲージ理論の基底状態を2+1$次元で正確に計算する。
この結果から,ニューラルネットワーク量子状態は格子ゲージ理論の高精度な研究方法として有望であることが示唆された。
論文 参考訳(メタデータ) (2024-05-23T17:46:49Z) - On Learning Latent Models with Multi-Instance Weak Supervision [57.18649648182171]
本稿では,複数の入力インスタンスに関連付けられた遷移関数$sigma$ラベルによって,教師信号が生成される弱い教師付き学習シナリオについて考察する。
我々の問題は、潜在的な構造学習やニューロシンボリックな統合など、さまざまな分野で満たされている。
論文 参考訳(メタデータ) (2023-06-23T22:05:08Z) - The Quantization Model of Neural Scaling [19.057931064238584]
ニューラルスケーリング法則の量子化モデルを提案し、モデルとデータサイズによる損失の観測されたパワー則の減少と、スケールによる新しい機能の突然の出現について説明する。
使用頻度を減少させるために量子が学習されると、使用中の電力法則が観測された損失のスケーリングを説明する。
論文 参考訳(メタデータ) (2023-03-23T17:58:43Z) - A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。
そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。
SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文 参考訳(メタデータ) (2023-03-06T14:31:09Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - A Neural Network Perturbation Theory Based on the Born Series [0.0]
ディープニューラルネットワーク(DNN)のテイラー係数は、主に解釈可能性研究の光に現れる。
このギャップは、ニューラルネットワーク(NN)テイラー展開の一般的な定式化を動機付けている。
NNは、主に対象関数のテイラー展開の先頭順にその導関数を適応することを示す。
論文 参考訳(メタデータ) (2020-09-07T15:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。