論文の概要: Beyond Scaling Curves: Internal Dynamics of Neural Networks Through the NTK Lens
- arxiv url: http://arxiv.org/abs/2507.05035v1
- Date: Mon, 07 Jul 2025 14:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.455791
- Title: Beyond Scaling Curves: Internal Dynamics of Neural Networks Through the NTK Lens
- Title(参考訳): スケーリング曲線を超えて:NTKレンズによるニューラルネットワークの内部ダイナミクス
- Authors: Konstantin Nikolaou, Sven Krippendorf, Samuel Tovey, Christian Holm,
- Abstract要約: 我々は、ニューラルネットワークがデータの下でどのように振る舞うかを経験的に分析し、ニューラル・タンジェント・カーネル(NTK)のレンズを通してモデルをスケーリングする。
我々の標準的な視覚タスクの発見は、内部モデル力学が逆の挙動を示すにもかかわらず、同様のパフォーマンススケーリング指数が生じることを示している。
また、無限幅制限への収束が有限幅モデルにおけるスケーリングの挙動にどのように影響するかという未解決のニューラルスケーリング問題にも対処する。
- 参考スコア(独自算出の注目度): 0.5745241788717261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling laws offer valuable insights into the relationship between neural network performance and computational cost, yet their underlying mechanisms remain poorly understood. In this work, we empirically analyze how neural networks behave under data and model scaling through the lens of the neural tangent kernel (NTK). This analysis establishes a link between performance scaling and the internal dynamics of neural networks. Our findings of standard vision tasks show that similar performance scaling exponents can occur even though the internal model dynamics show opposite behavior. This demonstrates that performance scaling alone is insufficient for understanding the underlying mechanisms of neural networks. We also address a previously unresolved issue in neural scaling: how convergence to the infinite-width limit affects scaling behavior in finite-width models. To this end, we investigate how feature learning is lost as the model width increases and quantify the transition between kernel-driven and feature-driven scaling regimes. We identify the maximum model width that supports feature learning, which, in our setups, we find to be more than ten times smaller than typical large language model widths.
- Abstract(参考訳): スケーリング法則は、ニューラルネットワークのパフォーマンスと計算コストの関係に関する貴重な洞察を提供するが、その基盤となるメカニズムは理解されていない。
本研究では、ニューラルネットワークがデータの下でどのように振る舞うかを経験的に分析し、ニューラル・タンジェント・カーネル(NTK)のレンズによるスケーリングをモデル化する。
この分析は、パフォーマンススケーリングとニューラルネットワークの内部ダイナミクスの関連性を確立する。
我々の標準的な視覚タスクの発見は、内部モデル力学が逆の挙動を示すにもかかわらず、同様のパフォーマンススケーリング指数が生じることを示している。
これは、ニューラルネットワークの基盤となるメカニズムを理解するのに、パフォーマンススケーリングだけでは不十分であることを示している。
また、無限幅制限への収束が有限幅モデルにおけるスケーリングの挙動にどのように影響するかという未解決のニューラルスケーリング問題にも対処する。
そこで本研究では,モデル幅が大きくなるにつれて機能学習が失われ,カーネル駆動と機能駆動のスケーリングシステム間の遷移を定量化する手法を提案する。
特徴学習をサポートする最大モデル幅は,我々の設定では,通常の大言語モデル幅よりも10倍以上小さいことがわかった。
関連論文リスト
- Understanding Artificial Neural Network's Behavior from Neuron Activation Perspective [8.251799609350725]
本稿では,ニューロン活性化ダイナミクスのレンズによるディープニューラルネットワーク(DNN)の複雑な動作について検討する。
本稿では,モデルのニューロン活性化パターンをプロセスとして解析する確率的フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-24T01:01:06Z) - The Importance of Being Scalable: Improving the Speed and Accuracy of Neural Network Interatomic Potentials Across Chemical Domains [4.340917737559795]
ニューラルネットワーク原子間ポテンシャル(NNIP)のスケーリングに関する研究
NNIPは、ab initio量子力学計算の代理モデルとして機能する。
我々は、スケーリング用に設計されたNNIPアーキテクチャを開発する: 効率よくスケールされた意識的原子間ポテンシャル(EScAIP)
論文 参考訳(メタデータ) (2024-10-31T17:35:57Z) - Unified Neural Network Scaling Laws and Scale-time Equivalence [10.918504301310753]
本稿では、モデルサイズ、トレーニング時間、データボリュームの3つの要因がどのように相互作用し、ディープニューラルネットワークの性能を決定するかという、新しい理論的特徴を示す。
まず、ニューラルネットワークのサイズを拡大し、トレーニング時間を比例的に増加させることで、理論的かつ経験的な等価性を確立する。
次に、スケール時間同値と二重降下の線形モデル解析を組み合わせ、統一された理論的スケーリング法則を得る。
論文 参考訳(メタデータ) (2024-09-09T16:45:26Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Trainability, Expressivity and Interpretability in Gated Neural ODEs [0.0]
本稿では,ニューラルネットワークのキャパシティを探索して複雑なトラジェクトリを生成する,表現性の新たな尺度を提案する。
本研究は,低次元のgnODEがモデリング能力を保ちながら,解釈可能性を大幅に向上することを示す。
また,複数の実世界のタスクにおいて,NODEにおけるゲーティングの利点を示す。
論文 参考訳(メタデータ) (2023-07-12T18:29:01Z) - Meta-Principled Family of Hyperparameter Scaling Strategies [9.89901717499058]
広範かつ深いニューラルネットワークのための動的オブザーバブル(ネットワーク出力、ニューラルタンジェントカーネル、ニューラルタンジェントカーネルの差分)のスケーリングを計算する。
文献で調べた無限幅制限は、相互接続されたウェブの異なる角に対応する。
論文 参考訳(メタデータ) (2022-10-10T18:00:01Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。