論文の概要: Saddle-to-Saddle Dynamics Explains A Simplicity Bias Across Neural Network Architectures
- arxiv url: http://arxiv.org/abs/2512.20607v1
- Date: Tue, 23 Dec 2025 18:55:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.982028
- Title: Saddle-to-Saddle Dynamics Explains A Simplicity Bias Across Neural Network Architectures
- Title(参考訳): Saddle-to-Saddle Dynamicsがニューラルネットワークアーキテクチャ間の単純なバイアスを説明
- Authors: Yedi Zhang, Andrew Saxe, Peter E. Latham,
- Abstract要約: ニューラルネットワークの一般クラスに対するサドル・アンド・サドル学習のダイナミクスを説明する理論的枠組みを提案する。
線形ネットワークはランクアップの解を学習し、ReLUネットワークはキンク数の増加による解を学習し、畳み込みネットワークは、畳み込みカーネルの数の増加による解を学習し、自己認識モデルは、注目度の増加による解を学習する。
- 参考スコア(独自算出の注目度): 8.384682536271344
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Neural networks trained with gradient descent often learn solutions of increasing complexity over time, a phenomenon known as simplicity bias. Despite being widely observed across architectures, existing theoretical treatments lack a unifying framework. We present a theoretical framework that explains a simplicity bias arising from saddle-to-saddle learning dynamics for a general class of neural networks, incorporating fully-connected, convolutional, and attention-based architectures. Here, simple means expressible with few hidden units, i.e., hidden neurons, convolutional kernels, or attention heads. Specifically, we show that linear networks learn solutions of increasing rank, ReLU networks learn solutions with an increasing number of kinks, convolutional networks learn solutions with an increasing number of convolutional kernels, and self-attention models learn solutions with an increasing number of attention heads. By analyzing fixed points, invariant manifolds, and dynamics of gradient descent learning, we show that saddle-to-saddle dynamics operates by iteratively evolving near an invariant manifold, approaching a saddle, and switching to another invariant manifold. Our analysis also illuminates the effects of data distribution and weight initialization on the duration and number of plateaus in learning, dissociating previously confounding factors. Overall, our theory offers a framework for understanding when and why gradient descent progressively learns increasingly complex solutions.
- Abstract(参考訳): 勾配勾配で訓練されたニューラルネットワークは、時間とともに複雑化する解を学習することが多い。
アーキテクチャ全体で広く観測されているが、既存の理論的な扱いには統一された枠組みが欠如している。
本稿では、ニューラルネットワークの一般的なクラスに対して、サドルからサドルまでの学習ダイナミクスから生じる単純さのバイアスを説明し、完全に接続された、畳み込み、注意に基づくアーキテクチャを取り入れた理論的枠組みを提案する。
ここでは単純な意味は、隠れたニューロン、畳み込み核、注意頭といった、ほとんど隠れた単位で表現できることを意味する。
具体的には、線形ネットワークはランクの増大による解を学習し、ReLUネットワークはキンク数の増加による解を学習し、畳み込みネットワークは、畳み込みカーネルの数の増加による解を学習し、自己認識モデルは、注目の頭数の増加による解を学習することを示す。
定点、不変多様体、勾配降下学習のダイナミクスを解析することにより、サドル・アンド・サドル力学は不変多様体の近くで反復的に発展し、サドルに近づき、他の不変多様体に切り換えることによって機能することを示す。
また,データ分布と重み初期化が学習の時間と数に及ぼす影響を照らし,先行する要因を解離させる。
全体として、我々の理論は、勾配降下が徐々に複雑な解を学習する時期と理由を理解するための枠組みを提供する。
関連論文リスト
- Make Haste Slowly: A Theory of Emergent Structured Mixed Selectivity in Feature Learning ReLU Networks [16.83151955540625]
有限ReLUネットワークにおける特徴学習理論への一歩を踏み出した。
ノード再利用と学習速度のバイアスにより,構造化された混合選択潜在表現が出現することを示す。
論文 参考訳(メタデータ) (2025-03-08T11:47:33Z) - Generalization emerges from local optimization in a self-organized learning network [0.0]
我々は,グローバルなエラー関数に頼ることなく,局所最適化ルールのみによって駆動される,教師付き学習ネットワーク構築のための新しいパラダイムを設計・分析する。
我々のネットワークは、ルックアップテーブルの形で、ノードに新しい知識を正確かつ瞬時に保存する。
本稿では,学習例数が十分に大きくなると,アルゴリズムによって生成されたネットワークが完全な一般化状態に体系的に到達する,分類タスクの多くの例を示す。
我々は状態変化のダイナミクスについて報告し、それが突然であり、従来の学習ネットワークですでに観察されている現象である1次相転移の特徴を持つことを示す。
論文 参考訳(メタデータ) (2024-10-03T15:32:08Z) - Get rich quick: exact solutions reveal how unbalanced initializations promote rapid feature learning [26.07501953088188]
本研究では,非平衡層固有の初期化分散と学習速度が特徴学習の度合いを決定するかを検討する。
分析の結果,保存量によって学習体制に影響を及ぼすことが示唆された。
我々は、この不均衡なリッチレジームが、深い有限幅ネットワークにおける特徴学習を駆動し、CNNにおける初期層の解釈可能性を促進し、階層データの学習の複雑さを減らし、モジュラー算術の時間を短縮することを示す。
論文 参考訳(メタデータ) (2024-06-10T10:42:37Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。