論文の概要: Over-parameterised Shallow Neural Networks with Asymmetrical Node Scaling: Global Convergence Guarantees and Feature Learning
- arxiv url: http://arxiv.org/abs/2302.01002v2
- Date: Tue, 18 Feb 2025 15:46:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:03:59.089272
- Title: Over-parameterised Shallow Neural Networks with Asymmetrical Node Scaling: Global Convergence Guarantees and Feature Learning
- Title(参考訳): 非対称ノードスケーリングを用いた過パラメータ浅層ニューラルネットワーク:グローバル収束保証と特徴学習
- Authors: Francois Caron, Fadhel Ayed, Paul Jung, Hoil Lee, Juho Lee, Hongseok Yang,
- Abstract要約: 我々は,各隠れノードの出力を正のパラメータでスケールする,広い浅層ニューラルネットワークの最適化を検討する。
このような大規模ニューラルネットワークでは、高い確率、勾配流、勾配降下が大域的に収束し、NTKパラメータ化とは異なり、何らかの意味で特徴を学習できることが証明されている。
- 参考スコア(独自算出の注目度): 18.445445525911847
- License:
- Abstract: We consider gradient-based optimisation of wide, shallow neural networks, where the output of each hidden node is scaled by a positive parameter. The scaling parameters are non-identical, differing from the classical Neural Tangent Kernel (NTK) parameterisation. We prove that for large such neural networks, with high probability, gradient flow and gradient descent converge to a global minimum and can learn features in some sense, unlike in the NTK parameterisation. We perform experiments illustrating our theoretical results and discuss the benefits of such scaling in terms of prunability and transfer learning.
- Abstract(参考訳): 我々は,各隠れノードの出力を正のパラメータでスケールする,広い浅層ニューラルネットワークの勾配に基づく最適化を検討する。
スケーリングパラメータは、古典的ニューラル・タンジェント・カーネル(NTK)のパラメータ化とは異なる、識別できない。
このような大規模ニューラルネットワークでは、高い確率、勾配流、勾配降下が大域的に収束し、NTKパラメータ化とは異なり、何らかの意味で特徴を学習できることが証明されている。
我々は,理論結果の実証実験を行い,適用可能性や伝達学習の観点から,このようなスケーリングのメリットについて考察する。
関連論文リスト
- Stochastic Gradient Descent for Two-layer Neural Networks [2.0349026069285423]
本稿では、過パラメータ化された2層ニューラルネットワークに適用した場合の降下(SGD)アルゴリズムの収束率について検討する。
提案手法は,NTKのタンジェントカーネル(NTK)近似と,NTKが生成する再生カーネル空間(RKHS)の収束解析を組み合わせたものである。
我々の研究フレームワークは、カーネルメソッドと最適化プロセスの間の複雑な相互作用を探索し、ニューラルネットワークのダイナミクスと収束特性に光を当てることを可能にする。
論文 参考訳(メタデータ) (2024-07-10T13:58:57Z) - Variational Inference for Infinitely Deep Neural Networks [0.4061135251278187]
非有界深度ニューラルネットワーク(UDN)
我々は、無限に深い確率モデルである非有界深度ニューラルネットワーク(UDN)を導入し、その複雑さをトレーニングデータに適用する。
我々はUDNを実データと合成データに基づいて研究する。
論文 参考訳(メタデータ) (2022-09-21T03:54:34Z) - Parameter Convex Neural Networks [13.42851919291587]
本研究では,ある条件下でのニューラルネットワークのパラメータに関して凸である指数的多層ニューラルネットワーク(EMLP)を提案する。
後期実験では,指数グラフ畳み込みネットワーク(EGCN)を同じアーキテクチャで構築し,グラフ分類データセット上で実験を行う。
論文 参考訳(メタデータ) (2022-06-11T16:44:59Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - DebiNet: Debiasing Linear Models with Nonlinear Overparameterized Neural
Networks [11.04121146441257]
パラメータ化ニューラルネットワークを半パラメトリックモデルに組み込んで推論と予測のギャップを埋める。
我々はこれを可能とし、数値実験で実証する理論的基礎を示す。
半パラメトリックニューラルネットワークに任意の特徴選択手法をプラグインするフレームワークであるDebiNetを提案する。
論文 参考訳(メタデータ) (2020-11-01T04:12:53Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。