論文の概要: Ultra-fast feature learning for the training of two-layer neural networks in the two-timescale regime
- arxiv url: http://arxiv.org/abs/2504.18208v2
- Date: Mon, 21 Jul 2025 14:02:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 14:33:32.036095
- Title: Ultra-fast feature learning for the training of two-layer neural networks in the two-timescale regime
- Title(参考訳): 2時間体制における2層ニューラルネットワークの訓練のための超高速特徴学習
- Authors: Raphaël Barboni, Gabriel Peyré, François-Xavier Vialard,
- Abstract要約: 本研究では,平均場隠れ型ニューラルネットワークの学習方法の収束について検討する。
本研究では,教師の特徴分布の抽出に有効な収束率を実現する戦略を提案する。
- 参考スコア(独自算出の注目度): 26.47265060394168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the convergence of gradient methods for the training of mean-field single-hidden-layer neural networks with square loss. For this high-dimensional and non-convex optimization problem, most known convergence results are either qualitative or rely on a neural tangent kernel analysis where nonlinear representations of the data are fixed. Using that this problem belongs to the class of separable nonlinear least squares problems, we consider here a Variable Projection (VarPro) or two-timescale learning algorithm, thereby eliminating the linear variables and reducing the learning problem to the training of nonlinear features. In a teacher-student scenario, we show such a strategy enables provable convergence rates for the sampling of a teacher feature distribution. Precisely, in the limit where the regularization strength vanishes, we show that the dynamic of the feature distribution corresponds to a weighted ultra-fast diffusion equation. Recent results on the asymptotic behavior of such PDEs then give quantitative guarantees for the convergence of the learned feature distribution.
- Abstract(参考訳): 正方形損失を持つ平均場単層ニューラルネットワークの学習のための勾配法の収束性について検討した。
この高次元および非凸最適化問題に対して、最もよく知られた収束結果は定性的か、データの非線形表現が固定されたニューラルネットワークカーネル解析に依存している。
この問題は、分離可能な非線形最小二乗問題のクラスに属するので、ここでは変数射影(VarPro)または2時間学習アルゴリズムを考え、線形変数を排除し、非線形特徴のトレーニングに学習問題を還元する。
教師-学生のシナリオでは、教師の特徴分布のサンプリングにおいて、証明可能な収束率を実現する戦略を示す。
正確には、正則化強度がなくなる極限において、特徴分布の力学が重み付けされた超高速拡散方程式に対応することを示す。
このようなPDEの漸近挙動に関する最近の結果は,学習した特徴分布の収束を定量的に保証する。
関連論文リスト
- Solving partial differential equations with sampled neural networks [1.8590821261905535]
偏微分方程式(PDE)に対する解の近似は計算科学や工学において重要な問題である。
データに依存しない確率分布から、アンザッツネットワークの隠れた重みとバイアスをサンプリングすることで、両課題を進展させる方法について論じる。
論文 参考訳(メタデータ) (2024-05-31T14:24:39Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - An Analytic Solution to Covariance Propagation in Neural Networks [10.013553984400488]
本稿では,ニューラルネットワークの入出力分布を正確に特徴付けるために,サンプルフリーモーメント伝搬法を提案する。
この手法の鍵となる有効性は、非線形活性化関数を通した確率変数の共分散に対する解析解である。
学習ニューラルネットワークの入力出力分布を分析し,ベイズニューラルネットワークを訓練する実験において,提案手法の適用性およびメリットを示す。
論文 参考訳(メタデータ) (2024-03-24T14:08:24Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - The Challenges of the Nonlinear Regime for Physics-Informed Neural Networks [0.0]
非線形シナリオではNTKの視点が不足していることを示す。
線形および非線形の両方の場合において,そのような手法の収束保証について検討する。
論文 参考訳(メタデータ) (2024-02-06T10:24:36Z) - Learning Theory of Distribution Regression with Neural Networks [6.961253535504979]
完全連結ニューラルネットワーク(FNN)による近似理論と分布回帰の学習理論を確立する。
古典回帰法とは対照的に、分布回帰の入力変数は確率測度である。
論文 参考訳(メタデータ) (2023-07-07T09:49:11Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Mean-Field Analysis of Two-Layer Neural Networks: Global Optimality with
Linear Convergence Rates [7.094295642076582]
平均場体制はNTK(lazy training)体制の理論的に魅力的な代替手段である。
平均場状態における連続ノイズ降下により訓練された2層ニューラルネットワークに対する線形収束結果を確立した。
論文 参考訳(メタデータ) (2022-05-19T21:05:40Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Error-Correcting Neural Networks for Two-Dimensional Curvature
Computation in the Level-Set Method [0.0]
本稿では,2次元曲率をレベルセット法で近似するための誤差ニューラルモデルに基づく手法を提案する。
我々の主な貢献は、需要に応じて機械学習操作を可能にする数値スキームに依存する、再設計されたハイブリッド・ソルバである。
論文 参考訳(メタデータ) (2022-01-22T05:14:40Z) - On the Convergence of Shallow Neural Network Training with Randomly
Masked Neurons [11.119895959906085]
密度の浅いニューラルネットワークを前提として、ランダムに選択された関数の作成、トレーニング、組み合わせに重点を置いています。
i)$ theworks' Neural kernel, $ii)$ the surrogate function' gradient, and $iii)$ surrogate functionのサンプリングと組み合わせの仕方を解析することにより、トレーニングエラーの線形収束率を証明できる。
固定されたニューロン選択確率では、サロゲートモデルの数が増えるにつれて誤差項は減少し、局所的なトレーニングステップの数が増えるにつれて増加する。
論文 参考訳(メタデータ) (2021-12-05T19:51:14Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Convergence rates for gradient descent in the training of
overparameterized artificial neural networks with biases [3.198144010381572]
近年、人工ニューラルネットワークは、古典的なソリューションが近づいている多数の問題に対処するための強力なツールに発展しています。
ランダムな勾配降下アルゴリズムが限界に達する理由はまだ不明である。
論文 参考訳(メタデータ) (2021-02-23T18:17:47Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z) - Semiparametric Nonlinear Bipartite Graph Representation Learning with
Provable Guarantees [106.91654068632882]
半パラメトリック指数族分布におけるパラメータの統計的推定問題として、両部グラフを考察し、その表現学習問題を定式化する。
提案手法は, 地中真理付近で強い凸性を示すため, 勾配降下法が線形収束率を達成できることを示す。
我々の推定器は指数族内の任意のモデル誤特定に対して頑健であり、広範な実験で検証されている。
論文 参考訳(メタデータ) (2020-03-02T16:40:36Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。