論文の概要: Alternating Gradient Flows: A Theory of Feature Learning in Two-layer Neural Networks
- arxiv url: http://arxiv.org/abs/2506.06489v1
- Date: Fri, 06 Jun 2025 19:29:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.296316
- Title: Alternating Gradient Flows: A Theory of Feature Learning in Two-layer Neural Networks
- Title(参考訳): 交互勾配流:二層ニューラルネットワークにおける特徴学習の理論
- Authors: Daniel Kunin, Giovanni Luca Marchetti, Feng Chen, Dhruva Karkada, James B. Simon, Michael R. DeWeese, Surya Ganguli, Nina Miolane,
- Abstract要約: 本稿では,ニューラルネットワークにおける特徴学習のダイナミクスを記述するアルゴリズムフレームワークであるAlternating Gradient Flows (AGF)を紹介する。
AGFは、動作を交互に2段階のプロセスとして近似する: 休眠ニューロン上のユーティリティ関数を最大化し、アクティブなニューロンに対するコスト関数を最小化する。
AGFを2次ネットワークに適用してモジュラー加算を訓練し、トレーニング力学の完全な特徴付けを行う。
- 参考スコア(独自算出の注目度): 26.63118984056936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What features neural networks learn, and how, remains an open question. In this paper, we introduce Alternating Gradient Flows (AGF), an algorithmic framework that describes the dynamics of feature learning in two-layer networks trained from small initialization. Prior works have shown that gradient flow in this regime exhibits a staircase-like loss curve, alternating between plateaus where neurons slowly align to useful directions and sharp drops where neurons rapidly grow in norm. AGF approximates this behavior as an alternating two-step process: maximizing a utility function over dormant neurons and minimizing a cost function over active ones. AGF begins with all neurons dormant. At each round, a dormant neuron activates, triggering the acquisition of a feature and a drop in the loss. AGF quantifies the order, timing, and magnitude of these drops, matching experiments across architectures. We show that AGF unifies and extends existing saddle-to-saddle analyses in fully connected linear networks and attention-only linear transformers, where the learned features are singular modes and principal components, respectively. In diagonal linear networks, we prove AGF converges to gradient flow in the limit of vanishing initialization. Applying AGF to quadratic networks trained to perform modular addition, we give the first complete characterization of the training dynamics, revealing that networks learn Fourier features in decreasing order of coefficient magnitude. Altogether, AGF offers a promising step towards understanding feature learning in neural networks.
- Abstract(参考訳): ニューラルネットワークが何を学習し、どのように学習するかは、まだ未解決の問題だ。
本稿では,小さな初期化から学習した2層ネットワークにおける特徴学習のダイナミクスを記述するアルゴリズムフレームワークであるAlternating Gradient Flows (AGF)を紹介する。
以前の研究では、この状態の勾配流は階段のような損失曲線を示し、神経細胞が徐々に有用な方向に整列する台地と、ニューロンがノルムで急速に成長する急激な落下の間に交互に変化することが示されている。
AGFは、この挙動を交互に2段階のプロセスとして近似し、休眠ニューロン上のユーティリティ関数を最大化し、アクティブなニューロンに対するコスト関数を最小化する。
AGFはすべてのニューロンの休眠から始まる。
各ラウンドで、休眠ニューロンが活性化し、特徴の獲得と損失の減少を引き起こす。
AGFはこれらのドロップの順序、タイミング、大きさを定量化し、アーキテクチャ間で実験を一致させる。
AGFは, 学習特徴が特異モードと主成分である完全連結線形ネットワークと注意のみの線形変換器において, 既存のサドル・アンド・サドル解析を統一し, 拡張することを示す。
対角線ネットワークでは、AGF は初期化が消滅する極限において勾配流に収束することが証明される。
AGFをモジュラー加算を行うために訓練された2次ネットワークに適用することにより、トレーニング力学の完全な特徴を初めて与え、ネットワークは係数の次数の減少でフーリエ特徴を学習することを示した。
さらにAGFは、ニューラルネットワークにおける機能学習を理解するための、有望なステップを提供する。
関連論文リスト
- GradINN: Gradient Informed Neural Network [2.287415292857564]
物理情報ニューラルネットワーク(PINN)にヒントを得た手法を提案する。
GradINNは、システムの勾配に関する事前の信念を利用して、予測関数の勾配を全ての入力次元にわたって制限する。
非時間依存システムにまたがる多様な問題に対するGradINNの利点を実証する。
論文 参考訳(メタデータ) (2024-09-03T14:03:29Z) - Connecting NTK and NNGP: A Unified Theoretical Framework for Wide Neural Network Learning Dynamics [6.349503549199403]
我々は、ディープ・ワイド・ニューラルネットワークの学習プロセスのための包括的なフレームワークを提供する。
拡散相を特徴づけることで、私たちの研究は脳内の表現的ドリフトに光を当てます。
論文 参考訳(メタデータ) (2023-09-08T18:00:01Z) - Quantifying the Optimization and Generalization Advantages of Graph Neural Networks Over Multilayer Perceptrons [50.33260238739837]
グラフネットワーク(GNN)は、グラフ構造化データから学習する際、顕著な能力を示した。
最適化と一般化の観点から、GNNと一般化を比較した分析の欠如がまだ残っている。
論文 参考訳(メタデータ) (2023-06-24T10:21:11Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer
Neural Networks [49.870593940818715]
本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。
我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
論文 参考訳(メタデータ) (2022-10-28T17:26:27Z) - The Influence of Learning Rule on Representation Dynamics in Wide Neural
Networks [18.27510863075184]
我々は、フィードバックアライメント(FA)、ダイレクトフィードバックアライメント(DFA)、エラー変調ヘビアン学習(Hebb)で訓練された無限幅の深い勾配ネットワークを解析する。
これらの学習規則のそれぞれに対して、無限幅での出力関数の進化は、時間変化の有効なニューラルネットワークカーネル(eNTK)によって制御されることを示す。
遅延訓練限界では、このeNTKは静的であり、進化しないが、リッチ平均場状態では、このカーネルの進化は動的平均場理論(DMFT)と自己整合的に決定することができる。
論文 参考訳(メタデータ) (2022-10-05T11:33:40Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。