論文の概要: Analyzing Neural Scaling Laws in Two-Layer Networks with Power-Law Data Spectra
- arxiv url: http://arxiv.org/abs/2410.09005v1
- Date: Fri, 11 Oct 2024 17:21:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 20:36:41.677066
- Title: Analyzing Neural Scaling Laws in Two-Layer Networks with Power-Law Data Spectra
- Title(参考訳): 電力線データスペクトルを持つ2層ネットワークにおけるニューラルスケーリング法則の解析
- Authors: Roman Worschech, Bernd Rosenow,
- Abstract要約: ニューラルスケーリング法則は、深層ニューラルネットワークのパフォーマンスが、トレーニングデータサイズ、モデルの複雑さ、トレーニング時間などの重要な要因とどのようにスケールするかを記述する。
我々は, 統計力学の手法を用いて, 生徒-教員間の一パス勾配勾配を解析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural scaling laws describe how the performance of deep neural networks scales with key factors such as training data size, model complexity, and training time, often following power-law behaviors over multiple orders of magnitude. Despite their empirical observation, the theoretical understanding of these scaling laws remains limited. In this work, we employ techniques from statistical mechanics to analyze one-pass stochastic gradient descent within a student-teacher framework, where both the student and teacher are two-layer neural networks. Our study primarily focuses on the generalization error and its behavior in response to data covariance matrices that exhibit power-law spectra. For linear activation functions, we derive analytical expressions for the generalization error, exploring different learning regimes and identifying conditions under which power-law scaling emerges. Additionally, we extend our analysis to non-linear activation functions in the feature learning regime, investigating how power-law spectra in the data covariance matrix impact learning dynamics. Importantly, we find that the length of the symmetric plateau depends on the number of distinct eigenvalues of the data covariance matrix and the number of hidden units, demonstrating how these plateaus behave under various configurations. In addition, our results reveal a transition from exponential to power-law convergence in the specialized phase when the data covariance matrix possesses a power-law spectrum. This work contributes to the theoretical understanding of neural scaling laws and provides insights into optimizing learning performance in practical scenarios involving complex data structures.
- Abstract(参考訳): ニューラルスケーリング法則は、ディープニューラルネットワークのパフォーマンスが、トレーニングデータサイズ、モデルの複雑さ、トレーニング時間などの重要な要因とどのようにスケールするかを説明している。
経験的な観察にもかかわらず、これらのスケーリング法則の理論的理解は依然として限られている。
本研究では, 統計力学の手法を用いて, 生徒と教師の双方が2層ニューラルネットワークである1パス確率勾配勾配を解析する。
本研究は、主に、パワー・ロースペクトルを示すデータ共分散行列に対する一般化誤差とその挙動に焦点を当てる。
線形活性化関数に対して、一般化誤差の解析式を導出し、異なる学習体制を探索し、パワーロースケーリングが発生する条件を特定する。
さらに,特徴学習体制における非線形活性化関数に解析を拡張し,データ共分散行列のパワーロッドスペクトルが学習力学に与える影響について検討する。
重要なことに、対称台地の長さは、データ共分散行列の異なる固有値の数と隠れ単位の数に依存し、これらの台地が様々な構成の下でどのように振る舞うかを示す。
さらに,データ共分散行列がパワーロースペクトルを持つ場合,指数関数からパワーロー収束への遷移が明らかとなった。
この研究は、ニューラルネットワークのスケーリング法則の理論的理解に寄与し、複雑なデータ構造を含む実践シナリオにおける学習性能の最適化に関する洞察を提供する。
関連論文リスト
- Cross-Entropy Is All You Need To Invert the Data Generating Process [29.94396019742267]
経験的現象は、教師付きモデルが線形な方法で変化の解釈可能な要因を学習できることを示唆している。
近年の自己教師型学習の進歩により,データ生成過程を反転させることで潜在構造を復元できることが示されている。
標準分類タスクにおいても,モデルが線形変換までの変動の基底構造因子の表現を学習することが証明された。
論文 参考訳(メタデータ) (2024-10-29T09:03:57Z) - A Random Matrix Theory Perspective on the Spectrum of Learned Features and Asymptotic Generalization Capabilities [30.737171081270322]
完全に接続された2層ニューラルネットワークは、単一だが攻撃的な勾配降下ステップの後、ターゲット関数にどのように適応するかを検討する。
これは、2層ニューラルネットワークの一般化における特徴学習の影響を、ランダムな特徴や遅延トレーニング体制を超えて、はっきりと説明してくれる。
論文 参考訳(メタデータ) (2024-10-24T17:24:34Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Spectral Regularization Allows Data-frugal Learning over Combinatorial
Spaces [13.36217184117654]
機械学習モデルのスペクトル表現の規則化は、ラベル付きデータが乏しい場合に一般化能力を向上させることを示す。
正規化損失の勾配降下は、いくつかのデータ共有現実問題におけるベースラインアルゴリズムと比較して、より優れた一般化性能をもたらす。
論文 参考訳(メタデータ) (2022-10-05T23:31:54Z) - Curvature-informed multi-task learning for graph networks [56.155331323304]
最先端のグラフニューラルネットワークは、複数の特性を同時に予測しようとする。
この現象の潜在的な説明として、各特性の損失面の曲率が大きく異なり、非効率な学習につながる可能性がある。
論文 参考訳(メタデータ) (2022-08-02T18:18:41Z) - Universal scaling laws in the gradient descent training of neural
networks [10.508187462682308]
学習軌跡は,大きな訓練時間に明示的な境界によって特徴づけられることを示す。
結果は,期待される損失に基づいて訓練された大規模ネットワークの進化のスペクトル解析に基づいている。
論文 参考訳(メタデータ) (2021-05-02T16:46:38Z) - Can Temporal-Difference and Q-Learning Learn Representation? A Mean-Field Theory [110.99247009159726]
時間差とQ-ラーニングは、ニューラルネットワークのような表現力のある非線形関数近似器によって強化される深層強化学習において重要な役割を担っている。
特に時間差学習は、関数近似器が特徴表現において線形であるときに収束する。
論文 参考訳(メタデータ) (2020-06-08T17:25:22Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。