論文の概要: Grokking as a Phase Transition between Competing Basins: a Singular Learning Theory Approach
- arxiv url: http://arxiv.org/abs/2603.01192v2
- Date: Tue, 03 Mar 2026 17:17:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 14:54:12.554111
- Title: Grokking as a Phase Transition between Competing Basins: a Singular Learning Theory Approach
- Title(参考訳): 競合する盆地間の相転移としてのグローキング--特異学習理論のアプローチ
- Authors: Ben Cullen, Sergio Estan-Ruiz, Riya Danait, Jiayi Li,
- Abstract要約: 我々は,長期トレーニング後の記憶から一般化への急激な移行であるグルーキングについて検討した。
我々は、競合する近ゼロロス溶液流域間の相転移として、二次ネットワークにおけるグラッキングを解釈する。
我々はモジュラー演算タスクで訓練された二次ネットワークにおいてLLCの閉形式式を導出し、それに対応する経験的検証を行う。
- 参考スコア(独自算出の注目度): 3.551701030393209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grokking, the abrupt transition from memorization to generalisation after extended training, suggests the presence of competing solution basins with distinct statistical properties. We study this phenomenon through the lens of Singular Learning Theory (SLT), a Bayesian framework that characterizes the geometry of the loss landscape via the local learning coefficient (LLC), a measure of the local degeneracy of the loss surface. SLT links lower-LLC basins to higher posterior mass concentration and lower expected generalisation error. Leveraging this theory, we interpret grokking in quadratic networks as a phase transition between competing near-zero-loss solution basins. Our contributions are two-fold: we derive closed-form expressions for the LLC in quadratic networks trained on modular arithmetic tasks, with the corresponding empirical verification; as well as empirical evidence demonstrating that LLC trajectories provide a reliable tool for tracking generalisation dynamics and interpreting phase transitions during training.
- Abstract(参考訳): 暗記から一般化への急激な移行であるグロキングは、異なる統計的性質を持つ競合する溶液盆地の存在を示唆している。
本研究では,この現象を,局所学習係数 (LLC) による損失景観の幾何学を特徴付けるベイズ的枠組みであるSingular Learning Theory (SLT) のレンズを用いて研究する。
SLTは低いLLC盆地を高い後方質量濃度と低い予測一般化誤差にリンクする。
この理論を応用して、2次ネットワークにおけるグラッキングを、競合する近ゼロの溶液盆地間の相転移として解釈する。
我々は、モジュラー演算タスクで訓練された二次ネットワークにおいて、LLCの閉形式式を導出し、それに対応する経験的検証を行い、LLC軌道が、トレーニング中に一般化ダイナミクスを追跡し、位相遷移を解釈するための信頼できるツールを提供することを示す実証的証拠を得た。
関連論文リスト
- On Multi-Step Theorem Prediction via Non-Parametric Structural Priors [50.16583672681106]
本研究では,インコンテキスト学習(ICL)のレンズによる学習自由な定理予測について検討する。
本稿では,過去の解の時間的依存関係を有向グラフとしてエンコードし,推論中に探索空間を効果的に引き起こす明示的なトポロジ的制約を課すTheorem Precedence Graphsを提案する。
FormalGeo7kベンチマークの実験から,本手法は89.29%の精度を実現し,ICLベースラインを著しく上回り,最先端の教師付きモデルに適合することがわかった。
論文 参考訳(メタデータ) (2026-03-05T06:08:50Z) - SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training [54.8494905524997]
分散トレーニングは、信頼できない、地理的に分散したノードで実行される場合、重大なセキュリティリスクをもたらす。
重複のないパイプライン並列性(PP)トレーニングの検証機構であるSENTINELを提案する。
実験では、モデル収束と性能を維持しながら、最大176人の労働者を持つ信頼できない分散環境における最大4BパラメータLSMのトレーニングを成功させた。
論文 参考訳(メタデータ) (2026-03-03T23:51:10Z) - Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - A simple mean field model of feature learning [2.3215806943173676]
勾配ランゲヴィン力学(SGLD)を訓練した2層非線形ネットワークに対する、トラクタブルで自己整合平均場(MF)理論を導出する。
無限の幅では、この理論はカーネルリッジの回帰に還元されるが、有限の幅では、ネットワークがターゲット関数と突然整合する対称性の破れ相転移を予測する。
基本的なMF理論は、有限幅状態におけるFLの出現に関する理論的な洞察を与えるが、半定量的にFLの開始をノイズやサンプルサイズで予測することは、遷移後の一般化の改善を著しく過小評価する。
論文 参考訳(メタデータ) (2025-10-16T22:28:44Z) - In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning [51.56484100374058]
本稿では,ICLリスクをベイズギャップとポストリアバリアンスの2つのコンポーネントに分割する基本的リスク分解を導入する。
一様アテンション変換器の場合、このギャップの非漸近上界を導出し、事前学習プロンプトの数への依存を明確にする。
後方変動は本質的なタスクの不確実性を表すモデルに依存しないリスクである。
論文 参考訳(メタデータ) (2025-10-13T03:42:31Z) - Calibrating Biased Distribution in VFM-derived Latent Space via Cross-Domain Geometric Consistency [52.52950138164424]
特徴抽出にオフザシェルフ(ビジョン)基礎モデルを利用する場合、特徴分布の幾何学的形状はドメインやデータセット間で顕著な伝達性を示す。
我々は,我々の幾何学的知識誘導分布キャリブレーションフレームワークを,フェデレーション学習とロングテール認識の2つの人気かつ挑戦的な設定で具体化する。
長期学習において、サンプル豊富なカテゴリから移動された幾何学的知識を利用して、サンプル・スカース・テールクラスの真の分布を復元する。
論文 参考訳(メタデータ) (2025-08-19T05:22:59Z) - Hidden Breakthroughs in Language Model Training [9.183934538035562]
本稿では、同様のブレークスルーがトレーニングを通して頻繁に発生するが、すべての変動を1つのスカラーに分解する損失指標によって隠蔽されていることを論じる。
低ランクトレーニングサブスペースの任意のベースに沿った損失変化を分解するPOLCAを導入する。
POLCAがモデル能力の解釈可能なブレークスルーを表すクラスタを復元することを示すため,合成算術と自然言語のタスクに対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-06-18T20:40:16Z) - Towards Robust Trajectory Representations: Isolating Environmental Confounders with Causal Learning [23.659451444973627]
本稿では、因果学習に基づく軌道モデリングフレームワーク(TrajCL)を提案する。
TrajCLは、より優れた一般化と解釈可能性を示しながら、軌道分類タスクのパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T10:34:58Z) - Learning in PINNs: Phase transition, total diffusion, and generalization [1.8802875123957965]
勾配信号-雑音比(SNR)のレンズを用いた完全連結ニューラルネットワークの学習力学について検討する。
全拡散と呼ばれる第3相を同定する」。
本稿では,情報誘起圧縮現象を考察し,全拡散相におけるアクティベーションの顕著な圧縮を示唆する。
論文 参考訳(メタデータ) (2024-03-27T12:10:30Z) - Relaxed Contrastive Learning for Federated Learning [48.96253206661268]
本稿では,フェデレート学習におけるデータ不均一性の課題に対処する,新しいコントラスト学習フレームワークを提案する。
当社のフレームワークは,既存のフェデレート学習アプローチを,標準ベンチマークにおいて大きなマージンで上回ります。
論文 参考訳(メタデータ) (2024-01-10T04:55:24Z) - Diffusion Generative Flow Samplers: Improving learning signals through
partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。
生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文 参考訳(メタデータ) (2023-10-04T09:39:05Z) - Revisiting Deep Semi-supervised Learning: An Empirical Distribution
Alignment Framework and Its Generalization Bound [97.93945601881407]
経験分布アライメントによる半教師あり学習(SLEDA)と呼ばれる深層半教師あり学習フレームワークを提案する。
ラベル付きデータに対するトレーニング誤差を最小化することにより,半教師付き学習の一般化誤差を効果的にバウンドできることを示す。
新しい枠組みと理論的境界に基づいて、Augmented Distribution Alignment Network(ADA-Net)と呼ばれるシンプルで効果的な深層半教師付き学習手法を開発した。
論文 参考訳(メタデータ) (2022-03-13T11:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。