論文の概要: Ultra-fast feature learning for the training of two-layer neural networks in the two-timescale regime
- arxiv url: http://arxiv.org/abs/2504.18208v1
- Date: Fri, 25 Apr 2025 09:40:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.726365
- Title: Ultra-fast feature learning for the training of two-layer neural networks in the two-timescale regime
- Title(参考訳): 2時間体制における2層ニューラルネットワークの訓練のための超高速特徴学習
- Authors: Raphaël Barboni, Gabriel Peyré, François-Xavier Vialard,
- Abstract要約: 平均場単一隠蔽層ニューラルネットワークの学習における勾配法の収束性について検討した。
教師-学生設定において,教師の特徴分布に対する訓練された特徴分布の収束を保証する。
- 参考スコア(独自算出の注目度): 26.47265060394168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the convergence of gradient methods for the training of mean-field single hidden layer neural networks with square loss. Observing this is a separable non-linear least-square problem which is linear w.r.t. the outer layer's weights, we consider a Variable Projection (VarPro) or two-timescale learning algorithm, thereby eliminating the linear variables and reducing the learning problem to the training of the feature distribution. Whereas most convergence rates or the training of neural networks rely on a neural tangent kernel analysis where features are fixed, we show such a strategy enables provable convergence rates for the sampling of a teacher feature distribution. Precisely, in the limit where the regularization strength vanishes, we show that the dynamic of the feature distribution corresponds to a weighted ultra-fast diffusion equation. Relying on recent results on the asymptotic behavior of such PDEs, we obtain guarantees for the convergence of the trained feature distribution towards the teacher feature distribution in a teacher-student setup.
- Abstract(参考訳): 平均場単一隠蔽層ニューラルネットワークの学習における勾配法の収束性について検討した。
これは、外層重みの線形 w.r.t. で分離可能な非線形最小二乗問題であり、可変射影(VarPro)または2時間学習アルゴリズムを考慮し、線形変数を排除し、特徴分布のトレーニングに学習問題を還元する。
多くの収束率やニューラルネットワークのトレーニングは、特徴が固定されたニューラルネットワークカーネル分析に依存しているのに対して、そのような戦略は教師の特徴分布のサンプリングに有効であることを示す。
正確には、正則化強度がなくなる極限において、特徴分布の力学が重み付けされた超高速拡散方程式に対応することを示す。
このようなPDEの漸近的行動に関する最近の結果をもとに,教師-学生構成における教師の特徴分布に対する訓練された特徴分布の収束を保証する。
関連論文リスト
- An Analytic Solution to Covariance Propagation in Neural Networks [10.013553984400488]
本稿では,ニューラルネットワークの入出力分布を正確に特徴付けるために,サンプルフリーモーメント伝搬法を提案する。
この手法の鍵となる有効性は、非線形活性化関数を通した確率変数の共分散に対する解析解である。
学習ニューラルネットワークの入力出力分布を分析し,ベイズニューラルネットワークを訓練する実験において,提案手法の適用性およびメリットを示す。
論文 参考訳(メタデータ) (2024-03-24T14:08:24Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Learning Theory of Distribution Regression with Neural Networks [6.961253535504979]
完全連結ニューラルネットワーク(FNN)による近似理論と分布回帰の学習理論を確立する。
古典回帰法とは対照的に、分布回帰の入力変数は確率測度である。
論文 参考訳(メタデータ) (2023-07-07T09:49:11Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Mean-Field Analysis of Two-Layer Neural Networks: Global Optimality with
Linear Convergence Rates [7.094295642076582]
平均場体制はNTK(lazy training)体制の理論的に魅力的な代替手段である。
平均場状態における連続ノイズ降下により訓練された2層ニューラルネットワークに対する線形収束結果を確立した。
論文 参考訳(メタデータ) (2022-05-19T21:05:40Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - On the Convergence of Shallow Neural Network Training with Randomly
Masked Neurons [11.119895959906085]
密度の浅いニューラルネットワークを前提として、ランダムに選択された関数の作成、トレーニング、組み合わせに重点を置いています。
i)$ theworks' Neural kernel, $ii)$ the surrogate function' gradient, and $iii)$ surrogate functionのサンプリングと組み合わせの仕方を解析することにより、トレーニングエラーの線形収束率を証明できる。
固定されたニューロン選択確率では、サロゲートモデルの数が増えるにつれて誤差項は減少し、局所的なトレーニングステップの数が増えるにつれて増加する。
論文 参考訳(メタデータ) (2021-12-05T19:51:14Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。