論文の概要: The Complexity Dynamics of Grokking
- arxiv url: http://arxiv.org/abs/2412.09810v2
- Date: Thu, 21 Aug 2025 12:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 14:03:17.02789
- Title: The Complexity Dynamics of Grokking
- Title(参考訳): グロキングの複雑度ダイナミクス
- Authors: Branton DeMoss, Silvia Sapora, Jakob Foerster, Nick Hawes, Ingmar Posner,
- Abstract要約: メモリ化時に複雑性が上昇し、ネットワークが一般化するより単純な基盤パターンを発見すると、ネットワークは崩壊する。
我々は,複雑性尺度と一般化境界との明確な関係を確立し,損失圧縮と一般化の関係の理論的基盤を提供する。
- 参考スコア(独自算出の注目度): 21.075837465689887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We demonstrate the existence of a complexity phase transition in neural networks by studying the grokking phenomenon, where networks suddenly transition from memorization to generalization long after overfitting their training data. To characterize this phase transition, we introduce a theoretical framework for measuring complexity based on rate-distortion theory and Kolmogorov complexity, which can be understood as principled lossy compression for networks. We find that properly regularized networks exhibit a sharp phase transition: complexity rises during memorization, then falls as the network discovers a simpler underlying pattern that generalizes. In contrast, unregularized networks remain trapped in a high-complexity memorization phase. We establish an explicit connection between our complexity measure and generalization bounds, providing a theoretical foundation for the link between lossy compression and generalization. Our framework achieves compression ratios 30-40x better than na\"ive approaches, enabling precise tracking of complexity dynamics. Finally, we introduce a regularization method based on spectral entropy that encourages networks toward low-complexity representations by penalizing their intrinsic dimension.
- Abstract(参考訳): 我々は,ニューラルネットワークにおける複雑性相転移の存在を,学習データに過度に適合した後,ネットワークが暗記から一般化へと突然移行するグルーキング現象を研究することによって実証する。
この位相遷移を特徴付けるために、ネットワークの損失圧縮原理として理解できる速度歪み理論とコルモゴロフ複雑性に基づいて、複雑性を測定する理論的枠組みを導入する。
適切に正規化されたネットワークは、暗記中に複雑性が上昇し、ネットワークが一般化するより単純な基盤パターンを発見すると崩壊する、急激な位相遷移を示す。
対照的に、非正規化されたネットワークは、高複雑さの記憶フェーズに閉じ込められている。
我々は,複雑性尺度と一般化境界との明確な関係を確立し,損失圧縮と一般化の関係の理論的基盤を提供する。
筆者らのフレームワークは, 圧縮比が na\ よりも 30-40 倍良く, 複雑性のダイナミクスを正確に追跡できる。
最後に,スペクトルエントロピーに基づく正規化手法を提案する。
関連論文リスト
- The Inductive Bias of Convolutional Neural Networks: Locality and Weight Sharing Reshape Implicit Regularization [57.37943479039033]
本研究では,勾配降下における安定性現象によって引き起こされる暗黙の正則化に,アーキテクチャ的帰納バイアスがどう影響するかを考察する。
局所性と重量共有が根本的に変化していることが示されています。
論文 参考訳(メタデータ) (2026-03-05T04:50:51Z) - Adversarial generalization of unfolding (model-based) networks [0.0]
本稿では,$l$-normの制約付き攻撃で乱れた場合の展開ネットワークの対角一般化について検討する。
これは展開ネットワークの対角一般化に関する最初の理論的解析である。
実世界のデータに関する一連の実験を行い、得られた理論を裏付ける結果を得た。
論文 参考訳(メタデータ) (2025-09-18T19:17:07Z) - Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning [57.3885832382455]
静的ネットワークの疎結合を単独で導入することで,最先端アーキテクチャの高密度化を超えて,さらなるスケーリング可能性を実現することができることを示す。
解析の結果,高密度DRLネットワークをネーティブにスケールアップするのとは対照的に,疎ネットワークは高いパラメータ効率とネットワーク表現性を両立させることがわかった。
論文 参考訳(メタデータ) (2025-06-20T17:54:24Z) - Binarized Neural Networks Converge Toward Algorithmic Simplicity: Empirical Support for the Learning-as-Compression Hypothesis [36.24954635616374]
本稿では,二元化ニューラルネットワーク(BNN)を第1のプロキシとして用いて,アルゴリズム情報理論へのシフトを提案する。
ブロック分解法 (BDM) を適用し, エントロピーよりもトレーニング中の構造変化をより綿密に追跡した。
これらの結果は、学習が構造化正規性の進行的内部化に対応するアルゴリズム圧縮の過程としてのトレーニングの観点を支持する。
論文 参考訳(メタデータ) (2025-05-27T02:51:36Z) - A Two-Phase Perspective on Deep Learning Dynamics [0.0]
深層ニューラルネットワークの学習は、高速な曲線フィッティングフェーズと、低速な圧縮または粗粒化フェーズの2段階に進むことを提案する。
私たちは、関連する時間スケールが2つのかなり異なる設定で一致していることを実証的に示します。
第2フェーズは、標準的なトレーニングアルゴリズムによって積極的に最適化されておらず、不要に長期化される可能性がある、と我々は主張する。
論文 参考訳(メタデータ) (2025-04-17T06:57:37Z) - Generalization emerges from local optimization in a self-organized learning network [0.0]
我々は,グローバルなエラー関数に頼ることなく,局所最適化ルールのみによって駆動される,教師付き学習ネットワーク構築のための新しいパラダイムを設計・分析する。
我々のネットワークは、ルックアップテーブルの形で、ノードに新しい知識を正確かつ瞬時に保存する。
本稿では,学習例数が十分に大きくなると,アルゴリズムによって生成されたネットワークが完全な一般化状態に体系的に到達する,分類タスクの多くの例を示す。
我々は状態変化のダイナミクスについて報告し、それが突然であり、従来の学習ネットワークですでに観察されている現象である1次相転移の特徴を持つことを示す。
論文 参考訳(メタデータ) (2024-10-03T15:32:08Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Correlation between entropy and generalizability in a neural network [9.223853439465582]
We use Wang-Landau Mote Carlo algorithm to compute the entropy at a specified test accuracy。
この結果から,エントロピック力は一般化に有効であることが示唆された。
論文 参考訳(メタデータ) (2022-07-05T12:28:13Z) - How You Start Matters for Generalization [26.74340246715699]
ニューラルネットワークの一般化は、その初期化に強く結びついていることが示される。
議論を呼んでいるフラットミニマ予想に反論する。
論文 参考訳(メタデータ) (2022-06-17T05:30:56Z) - Learning Theory Can (Sometimes) Explain Generalisation in Graph Neural
Networks [13.518582483147325]
本稿では,トランスダクティブ推論の文脈におけるニューラルネットワークの性能を厳密に分析する。
本稿では, ブロックモデルに対するグラフ畳み込みネットワークの一般化特性について, トランスダクティブなRademacher複雑性が説明できることを示す。
論文 参考訳(メタデータ) (2021-12-07T20:06:23Z) - Towards Understanding Theoretical Advantages of Complex-Reaction
Networks [77.34726150561087]
パラメータ数を用いて,関数のクラスを複素反応ネットワークで近似できることを示す。
経験的リスク最小化については,複素反応ネットワークの臨界点集合が実数値ネットワークの固有部分集合であることを示す。
論文 参考訳(メタデータ) (2021-08-15T10:13:49Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Formalizing Generalization and Robustness of Neural Networks to Weight
Perturbations [58.731070632586594]
非負のモノトーンアクティベーション機能を備えたフィードフォワードニューラルネットワークの重量変動に対する最初の形式解析を提供します。
また,重みの摂動に対して一般化し頑健なニューラルネットワークを訓練するための新しい理論駆動損失関数を設計した。
論文 参考訳(メタデータ) (2021-03-03T06:17:03Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Compressive Sensing and Neural Networks from a Statistical Learning
Perspective [4.561032960211816]
線形測定の少ないスパース再構成に適したニューラルネットワークのクラスに対する一般化誤差解析を提案する。
現実的な条件下では、一般化誤差は層数で対数的にしかスケールせず、測定数ではほとんど線形である。
論文 参考訳(メタデータ) (2020-10-29T15:05:43Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。