論文の概要: The Complexity Dynamics of Grokking
- arxiv url: http://arxiv.org/abs/2412.09810v1
- Date: Fri, 13 Dec 2024 02:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:02:15.547236
- Title: The Complexity Dynamics of Grokking
- Title(参考訳): グロキングの複雑度ダイナミクス
- Authors: Branton DeMoss, Silvia Sapora, Jakob Foerster, Nick Hawes, Ingmar Posner,
- Abstract要約: 本稿では,コルモゴロフ複雑性理論に基づくニューラルネットワークの内在的複雑性の新しい尺度を提案する。
ネットワークトレーニングを通じて、このメトリックを追跡することで、複雑性の上昇と低下で構成される、トレーニングダイナミクスの一貫性のあるパターンを見つけることができます。
速度歪み理論と最小記述長原理の知見に基づいて、ニューラルネットワークの損失圧縮に対する原理的なアプローチを定式化した。
- 参考スコア(独自算出の注目度): 21.075837465689887
- License:
- Abstract: We investigate the phenomenon of generalization through the lens of compression. In particular, we study the complexity dynamics of neural networks to explain grokking, where networks suddenly transition from memorizing to generalizing solutions long after over-fitting the training data. To this end we introduce a new measure of intrinsic complexity for neural networks based on the theory of Kolmogorov complexity. Tracking this metric throughout network training, we find a consistent pattern in training dynamics, consisting of a rise and fall in complexity. We demonstrate that this corresponds to memorization followed by generalization. Based on insights from rate--distortion theory and the minimum description length principle, we lay out a principled approach to lossy compression of neural networks, and connect our complexity measure to explicit generalization bounds. Based on a careful analysis of information capacity in neural networks, we propose a new regularization method which encourages networks towards low-rank representations by penalizing their spectral entropy, and find that our regularizer outperforms baselines in total compression of the dataset.
- Abstract(参考訳): 圧縮レンズによる一般化現象について検討する。
特に、ニューラルネットワークの複雑さのダイナミクスについて検討し、トレーニングデータを過度に適合させた後、ネットワークが突然記憶から一般化する解へと移行する、グルーキングを説明する。
そこで我々は,コルモゴロフ複雑性の理論に基づくニューラルネットワークの内在的複雑性の新しい尺度を提案する。
ネットワークトレーニングを通じて、このメトリックを追跡することで、複雑性の上昇と低下で構成される、トレーニングダイナミクスの一貫性のあるパターンを見つけることができます。
これは記憶とそれに続く一般化に対応することを実証する。
速度歪み理論と最小記述長原理の知見に基づいて、ニューラルネットワークの損失圧縮に対する原理的なアプローチを定式化し、複雑性尺度を明示的な一般化境界に接続する。
ニューラルネットワークにおける情報キャパシティの注意深い分析に基づいて、スペクトルエントロピーをペナル化することで低ランク表現へのネットワーク導入を促す新たな正規化手法を提案する。
関連論文リスト
- Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Correlation between entropy and generalizability in a neural network [9.223853439465582]
We use Wang-Landau Mote Carlo algorithm to compute the entropy at a specified test accuracy。
この結果から,エントロピック力は一般化に有効であることが示唆された。
論文 参考訳(メタデータ) (2022-07-05T12:28:13Z) - How You Start Matters for Generalization [26.74340246715699]
ニューラルネットワークの一般化は、その初期化に強く結びついていることが示される。
議論を呼んでいるフラットミニマ予想に反論する。
論文 参考訳(メタデータ) (2022-06-17T05:30:56Z) - Learning Theory Can (Sometimes) Explain Generalisation in Graph Neural
Networks [13.518582483147325]
本稿では,トランスダクティブ推論の文脈におけるニューラルネットワークの性能を厳密に分析する。
本稿では, ブロックモデルに対するグラフ畳み込みネットワークの一般化特性について, トランスダクティブなRademacher複雑性が説明できることを示す。
論文 参考訳(メタデータ) (2021-12-07T20:06:23Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Formalizing Generalization and Robustness of Neural Networks to Weight
Perturbations [58.731070632586594]
非負のモノトーンアクティベーション機能を備えたフィードフォワードニューラルネットワークの重量変動に対する最初の形式解析を提供します。
また,重みの摂動に対して一般化し頑健なニューラルネットワークを訓練するための新しい理論駆動損失関数を設計した。
論文 参考訳(メタデータ) (2021-03-03T06:17:03Z) - Compressive Sensing and Neural Networks from a Statistical Learning
Perspective [4.561032960211816]
線形測定の少ないスパース再構成に適したニューラルネットワークのクラスに対する一般化誤差解析を提案する。
現実的な条件下では、一般化誤差は層数で対数的にしかスケールせず、測定数ではほとんど線形である。
論文 参考訳(メタデータ) (2020-10-29T15:05:43Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。