論文の概要: Implicit bias produces neural scaling laws in learning curves, from perceptrons to deep networks
- arxiv url: http://arxiv.org/abs/2505.13230v1
- Date: Mon, 19 May 2025 15:13:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.68822
- Title: Implicit bias produces neural scaling laws in learning curves, from perceptrons to deep networks
- Title(参考訳): 入射バイアスは、知覚から深層ネットワークまで、学習曲線における神経スケーリング則を生成する
- Authors: Francesco D'Amico, Dario Bocchi, Matteo Negri,
- Abstract要約: 我々は、スペクトル複雑性規範のレンズを通して、トレーニングのダイナミクス全体について研究する。
トレーニング中にパフォーマンスがどのように進化するかを規定する2つの新しい動的スケーリング法則を同定する。
我々の発見は、CNN、ResNets、MNIST、CIFAR-10、CIFAR-100で訓練されたVision Transformersで一致している。
- 参考スコア(独自算出の注目度): 11.365318749216739
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Scaling laws in deep learning - empirical power-law relationships linking model performance to resource growth - have emerged as simple yet striking regularities across architectures, datasets, and tasks. These laws are particularly impactful in guiding the design of state-of-the-art models, since they quantify the benefits of increasing data or model size, and hint at the foundations of interpretability in machine learning. However, most studies focus on asymptotic behavior at the end of training or on the optimal training time given the model size. In this work, we uncover a richer picture by analyzing the entire training dynamics through the lens of spectral complexity norms. We identify two novel dynamical scaling laws that govern how performance evolves during training. These laws together recover the well-known test error scaling at convergence, offering a mechanistic explanation of generalization emergence. Our findings are consistent across CNNs, ResNets, and Vision Transformers trained on MNIST, CIFAR-10 and CIFAR-100. Furthermore, we provide analytical support using a solvable model: a single-layer perceptron trained with binary cross-entropy. In this setting, we show that the growth of spectral complexity driven by the implicit bias mirrors the generalization behavior observed at fixed norm, allowing us to connect the performance dynamics to classical learning rules in the perceptron.
- Abstract(参考訳): ディープラーニングにおける法則のスケーリング – モデルパフォーマンスとリソース成長をリンクする経験則関係 – は、アーキテクチャ、データセット、タスクにまたがる単純かつ印象的な規則として現れている。
これらの法則は、データの増加やモデルサイズの増加の利点を定量化し、機械学習における解釈可能性の基礎を示唆するため、最先端のモデルの設計を導くことに特に影響を与える。
しかし、ほとんどの研究は、トレーニング終了時の漸近的行動や、モデルサイズを考慮に入れた最適なトレーニング時間に焦点を当てている。
本研究では、スペクトル複雑性規範のレンズを用いて、トレーニングのダイナミクス全体を解析することにより、よりリッチな画像を明らかにする。
トレーニング中にパフォーマンスがどのように進化するかを規定する2つの新しい動的スケーリング法則を同定する。
これらの法則は、収束時によく知られたテストエラーのスケーリングを回復し、一般化の出現に関する力学的な説明を提供する。
我々の発見は、CNN、ResNets、MNIST、CIFAR-10、CIFAR-100で訓練されたVision Transformersで一致している。
さらに,2層クロスエントロピーで学習した単層パーセプトロンの解答モデルを用いて解析支援を行う。
この設定では、暗黙バイアスによって引き起こされるスペクトル複雑性の増大は、固定ノルムで観察される一般化の挙動を反映し、パーセプトロンの古典的な学習規則に性能のダイナミクスを結びつけることができることを示す。
関連論文リスト
- How to Upscale Neural Networks with Scaling Law? A Survey and Practical Guidelines [20.62274005080048]
初期の研究では、モデル性能におけるパワー-ロー関係が確立され、計算-最適スケーリング戦略が導かれた。
スパースモデル、Mix-of-Experts、検索強化学習、マルチモーダルモデルは、しばしば伝統的なスケーリングパターンから逸脱する。
スケーリングの振る舞いは、視覚、強化学習、微調整といった領域によって異なり、よりニュアンスなアプローチの必要性が強調されている。
論文 参考訳(メタデータ) (2025-02-17T17:20:41Z) - Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Analyzing Neural Scaling Laws in Two-Layer Networks with Power-Law Data Spectra [0.0]
ニューラルスケーリング法則は、深層ニューラルネットワークのパフォーマンスが、トレーニングデータサイズ、モデルの複雑さ、トレーニング時間などの重要な要因とどのようにスケールするかを記述する。
我々は, 統計力学の手法を用いて, 生徒-教員間の一パス勾配勾配を解析する。
論文 参考訳(メタデータ) (2024-10-11T17:21:42Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Layerwise complexity-matched learning yields an improved model of cortical area V2 [12.861402235256207]
ディープニューラルネットワークは、人間の能力にアプローチするオブジェクト認識のためのエンドツーエンドを訓練した。
我々は,連続する層に独立して機能する自己指導型トレーニング手法を開発した。
本モデルは, 霊長類領域V2における選択性特性と神経活動に適合していることが示唆された。
論文 参考訳(メタデータ) (2023-12-18T18:37:02Z) - Robust Graph Representation Learning via Predictive Coding [46.22695915912123]
予測符号化は、当初脳の情報処理をモデル化するために開発されたメッセージパッシングフレームワークである。
本研究では,予測符号化のメッセージパス規則に依存するモデルを構築する。
提案したモデルは,帰納的タスクと帰納的タスクの両方において,標準的なモデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2022-12-09T03:58:22Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。