論文の概要: Symmetries in Overparametrized Neural Networks: A Mean-Field View
- arxiv url: http://arxiv.org/abs/2405.19995v2
- Date: Thu, 25 Jul 2024 22:27:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 17:42:34.341942
- Title: Symmetries in Overparametrized Neural Networks: A Mean-Field View
- Title(参考訳): 過度にパラメータ化されたニューラルネットワークの対称性:平均的な視野
- Authors: Javier Maass, Joaquin Fontbona,
- Abstract要約: 我々は,超並列化ニューラルネットワーク(NN)の学習力学を,法学におけるデータ対称性の下で平均フィールドスチューデント(MF)ビューで表現する。
我々は、対称データに対して、DA、FAおよび自由学習モデルが全く同じMFダイナミクスに従うことを示し、人口リスクを最小限に抑える。
また、SI法に対する最適の到達可能性についても反例を挙げる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a Mean-Field (MF) view of the learning dynamics of overparametrized Artificial Neural Networks (NN) under data symmetric in law wrt the action of a general compact group $G$. We consider for this a class of generalized shallow NNs given by an ensemble of $N$ multi-layer units, jointly trained using stochastic gradient descent (SGD) and possibly symmetry-leveraging (SL) techniques, such as Data Augmentation (DA), Feature Averaging (FA) or Equivariant Architectures (EA). We introduce the notions of weakly and strongly invariant laws (WI and SI) on the parameter space of each single unit, corresponding, respectively, to $G$-invariant distributions, and to distributions supported on parameters fixed by the group action (which encode EA). This allows us to define symmetric models compatible with taking $N\to\infty$ and give an interpretation of the asymptotic dynamics of DA, FA and EA in terms of Wasserstein Gradient Flows describing their MF limits. When activations respect the group action, we show that, for symmetric data, DA, FA and freely-trained models obey the exact same MF dynamic, which stays in the space of WI laws and minimizes therein the population risk. We also give a counterexample to the general attainability of an optimum over SI laws. Despite this, quite remarkably, we show that the set of SI laws is also preserved by the MF dynamics even when freely trained. This sharply contrasts the finite-$N$ setting, in which EAs are generally not preserved by unconstrained SGD. We illustrate the validity of our findings as $N$ gets larger in a teacher-student experimental setting, training a student NN to learn from a WI, SI or arbitrary teacher model through various SL schemes. We last deduce a data-driven heuristic to discover the largest subspace of parameters supporting SI distributions for a problem, that could be used for designing EA with minimal generalization error.
- Abstract(参考訳): 我々は,一般コンパクト群$G$の作用を法則として,過度にパラメータ化されたニューラルネットワーク(NN)の学習力学の平均場(MF)ビューを開発する。
本研究では,SGD(確率勾配勾配勾配)と,データ拡張(DA)や特徴平均化(FA),等変アーキテクチャ(EA)といった対称性平均化(SL)手法を併用した,N$の多層ユニットのアンサンブルによって与えられる一般化された浅層NNのクラスを考える。
各単位のパラメータ空間上で、それぞれ$G$-不変分布と、群作用によって固定されたパラメータ(EAを符号化する)で支えられる分布について、弱不変かつ強不変な法則(WIとSI)の概念を導入する。
これにより、$N\to\infty$と互換性のある対称モデルを定義し、それらの MF の極限を記述する Wasserstein Gradient Flows の観点から、DA, FA, EA の漸近力学の解釈を与えることができる。
活性化が群作用を尊重する場合、対称データに対して、DA、FAおよび自由学習モデルは、WI法則の空間に留まり、人口リスクを最小化する全く同じMFダイナミクスに従うことを示す。
また、SI法に対する最適の到達可能性についても反例を挙げる。
それにもかかわらず、非常に驚くべきことに、SI則の集合は、自由に訓練されたとしても、MF力学によって保存されている。
これは有限$N$の設定とは対照的であり、EA は非制約 SGD によって一般に保存されない。
教師が学習する実験環境でN$が大きくなるにつれて, WI, SI, あるいは任意の教師モデルから学習するために学生NNを訓練し, 様々なSLスキームを用いてN$が大きくなることを示す。
我々は最後にデータ駆動ヒューリスティックを導出し、最小の一般化誤差でEAを設計するのに使用できる問題に対するSI分布をサポートするパラメータの最大の部分空間を発見する。
関連論文リスト
- Incorporating Arbitrary Matrix Group Equivariance into KANs [69.30866522377694]
Kolmogorov-Arnold Networks (KAN) は科学分野で大きな成功を収めている。
しかし、スプライン関数は、機械学習において重要な事前知識であるタスクの対称性を尊重しないかもしれない。
本研究では,Equivariant Kolmogorov-Arnold Networks (EKAN)を提案する。
論文 参考訳(メタデータ) (2024-10-01T06:34:58Z) - The Role of Fibration Symmetries in Geometric Deep Learning [0.0]
Geometric Deep Learning (GDL)は、対称性の観点から機械学習技術の幅広いクラスを統一する。
我々はGDLを緩和し、局所対称性、特にグラフのフィブレーション対称性が現実的なインスタンスの規則性を利用することを可能にすることを提案する。
GNNは、フィブレーション対称性の誘導バイアスを適用し、その表現力に対してより強い上限を導出する。
論文 参考訳(メタデータ) (2024-08-28T16:04:40Z) - Enhancing lattice kinetic schemes for fluid dynamics with Lattice-Equivariant Neural Networks [79.16635054977068]
我々はLattice-Equivariant Neural Networks (LENNs)と呼ばれる新しい同変ニューラルネットワークのクラスを提案する。
我々の手法は、ニューラルネットワークに基づく代理モデルLattice Boltzmann衝突作用素の学習を目的とした、最近導入されたフレームワーク内で開発されている。
本研究は,実世界のシミュレーションにおける機械学習強化Lattice Boltzmann CFDの実用化に向けて展開する。
論文 参考訳(メタデータ) (2024-05-22T17:23:15Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - FAENet: Frame Averaging Equivariant GNN for Materials Modeling [123.19473575281357]
データ変換による任意のモデルE(3)-同変や不変化を実現するために,フレームアラグリング(SFA)に依存したフレキシブルなフレームワークを導入する。
本手法の有効性を理論的および実験的に証明し, 材料モデリングにおける精度と計算スケーラビリティを実証する。
論文 参考訳(メタデータ) (2023-04-28T21:48:31Z) - Deep Learning Symmetries and Their Lie Groups, Algebras, and Subalgebras
from First Principles [55.41644538483948]
ラベル付きデータセットに存在する連続した対称性群の検出と同定のためのディープラーニングアルゴリズムを設計する。
完全に接続されたニューラルネットワークを用いて、変換対称性と対応するジェネレータをモデル化する。
また,Lie群とその性質の数学的研究に機械学習アプローチを使うための扉を開く。
論文 参考訳(メタデータ) (2023-01-13T16:25:25Z) - A General Framework For Proving The Equivariant Strong Lottery Ticket
Hypothesis [15.376680573592997]
現代のニューラルネットワークは、単なる翻訳対称性以上のものを組み込むことができる。
我々は、Strong Lottery Ticket hypothesis (SLTH) を群$G$の作用を保存する関数に一般化する。
オーバーパラメータ化$textE(2)$-steerable CNNとメッセージパッシングGNNによって、我々の理論を証明します。
論文 参考訳(メタデータ) (2022-06-09T04:40:18Z) - Implicit Bias of MSE Gradient Optimization in Underparameterized Neural
Networks [0.0]
勾配流による平均二乗誤差の最適化において,関数空間におけるニューラルネットワークのダイナミクスについて検討する。
ニューラルタンジェントカーネル(NTK)により決定された積分作用素$T_Kinfty$の固有関数をネットワークが学習することを示す。
減衰偏差は2乗誤差を最適化する際の力学の単純かつ統一的な視点を与えると結論付けている。
論文 参考訳(メタデータ) (2022-01-12T23:28:41Z) - Frame Averaging for Invariant and Equivariant Network Design [50.87023773850824]
フレーム平均化(FA)は、既知の(バックボーン)アーキテクチャを新しい対称性タイプに不変あるいは同変に適応するためのフレームワークである。
FAモデルが最大表現力を持つことを示す。
我々は,新しいユニバーサルグラフニューラルネット(GNN),ユニバーサルユークリッド運動不変点クラウドネットワーク,およびユークリッド運動不変メッセージパッシング(MP)GNNを提案する。
論文 参考訳(メタデータ) (2021-10-07T11:05:23Z) - Encoding Involutory Invariance in Neural Networks [1.6371837018687636]
ある状況では、ニューラルネットワーク(NN)は、基礎となる物理対称性に従うデータに基づいて訓練される。
本研究では、関数がパリティまでのインボリュート線型/ファイン変換に対して不変な特別な対称性について検討する。
数値実験により,提案モデルが与えられた対称性を尊重しながらベースラインネットワークより優れていたことが示唆された。
また,本手法を水平/垂直反射対称性を持つデータセットに対する畳み込みNN分類タスクに適用する手法も提案されている。
論文 参考訳(メタデータ) (2021-06-07T16:07:15Z) - Neural Mechanics: Symmetry and Broken Conservation Laws in Deep Learning
Dynamics [26.485269202381932]
トレーニング中のニューラルネットワークパラメータのダイナミクスを理解することは、ディープラーニングの理論基盤を構築する上で重要な課題のひとつだ。
このような対称性は勾配やヘッシアンに厳密な幾何学的制約を課し、関連する保存則を導く。
SGDが有限学習速度で行った数値軌道をよりよく近似する差分方程式である修正勾配流の導出に有限差分法からツールを適用します。
論文 参考訳(メタデータ) (2020-12-08T20:33:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。