論文の概要: Grokking as Compression: A Nonlinear Complexity Perspective
- arxiv url: http://arxiv.org/abs/2310.05918v1
- Date: Mon, 9 Oct 2023 17:59:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-10 17:00:17.734866
- Title: Grokking as Compression: A Nonlinear Complexity Perspective
- Title(参考訳): 圧縮としてのグロッキング:非線形複雑性の観点から
- Authors: Ziming Liu, Ziqian Zhong, Max Tegmark
- Abstract要約: ネットワークの複雑性を測定するために線形写像数 (LMN) を定義する。
LMNは、一般化前にニューラルネットワーク圧縮をうまく特徴付けることができる。
我々は、LMNがコルモゴロフのニューラルネットワークバージョンとして有望な候補であると主張している。
- 参考スコア(独自算出の注目度): 18.066329604222975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We attribute grokking, the phenomenon where generalization is much delayed
after memorization, to compression. To do so, we define linear mapping number
(LMN) to measure network complexity, which is a generalized version of linear
region number for ReLU networks. LMN can nicely characterize neural network
compression before generalization. Although the $L_2$ norm has been a popular
choice for characterizing model complexity, we argue in favor of LMN for a
number of reasons: (1) LMN can be naturally interpreted as
information/computation, while $L_2$ cannot. (2) In the compression phase, LMN
has linear relations with test losses, while $L_2$ is correlated with test
losses in a complicated nonlinear way. (3) LMN also reveals an intriguing
phenomenon of the XOR network switching between two generalization solutions,
while $L_2$ does not. Besides explaining grokking, we argue that LMN is a
promising candidate as the neural network version of the Kolmogorov complexity
since it explicitly considers local or conditioned linear computations aligned
with the nature of modern artificial neural networks.
- Abstract(参考訳): 記憶の後に一般化が大幅に遅れる現象であるgrokkingを圧縮に分類した。
そこで我々は,ReLUネットワークに対する線形領域番号の一般化版であるネットワーク複雑性を測定するために,線形写像数(LMN)を定義する。
LMNは一般化前にニューラルネットワーク圧縮をうまく特徴付けることができる。
L_2$ノルムはモデル複雑性を特徴づけるための一般的な選択肢であるが、(1) LMNは情報/計算として自然に解釈できるが、$L_2$はできない。
2) 圧縮相では, LMN は試験損失と線形関係を持ち, $L_2$ は複雑な非線形手法で試験損失と相関する。
(3) LMN はまた、XOR ネットワークが2つの一般化解を切り替える興味深い現象を示すが、$L_2$ はそうではない。
局所的あるいは条件付き線形計算が現代の人工ニューラルネットワークの性質に合致していることを明確に考慮するため、私たちはLMNがコルモゴロフ複雑性のニューラルネットワークバージョンとして有望な候補であると論じる。
関連論文リスト
- Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Provable Identifiability of Two-Layer ReLU Neural Networks via LASSO
Regularization [15.517787031620864]
LASSOの領域は、ファッショナブルで強力な非線形回帰モデルである2層ReLUニューラルネットワークに拡張される。
LASSO推定器はニューラルネットワークを安定的に再構築し,サンプル数が対数的にスケールする場合に$mathcalSstar$を識別可能であることを示す。
我々の理論は、2層ReLUニューラルネットワークのための拡張Restricted Isometry Property (RIP)ベースの分析フレームワークにある。
論文 参考訳(メタデータ) (2023-05-07T13:05:09Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - The Efficacy of $L_1$ Regularization in Two-Layer Neural Networks [36.753907384994704]
ニューラルネットワークにおける重要な問題は、最も適切な数の隠れたニューロンを選択し、厳密な統計的リスク境界を得ることである。
我々は、$L_1$正規化が一般化誤差を制御し、入力次元を分散させることができることを示す。
過剰な数のニューロンは、必ずしも適切な正規化の下で一般化誤差を増大させるとは限らない。
論文 参考訳(メタデータ) (2020-10-02T15:23:22Z) - The Interpolation Phase Transition in Neural Networks: Memorization and
Generalization under Lazy Training [10.72393527290646]
ニューラル・タンジェント(NT)体制における2層ニューラルネットワークの文脈における現象について検討した。
Ndgg n$ とすると、テストエラーは無限幅のカーネルに対するカーネルリッジ回帰の1つによってよく近似される。
後者は誤差リッジ回帰によりよく近似され、活性化関数の高次成分に関連する自己誘導項により正規化パラメータが増加する。
論文 参考訳(メタデータ) (2020-07-25T01:51:13Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z) - Neural Networks are Convex Regularizers: Exact Polynomial-time Convex
Optimization Formulations for Two-layer Networks [70.15611146583068]
我々は、線形整列ユニット(ReLU)を用いた2層ニューラルネットワークのトレーニングの正確な表現を開発する。
我々の理論は半無限双対性と最小ノルム正規化を利用する。
論文 参考訳(メタデータ) (2020-02-24T21:32:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。