Fugu-MT 論文翻訳(概要): Over-parameterised Shallow Neural Networks with Asymmetrical Node Scaling: Global Convergence Guarantees and Feature Learning

論文の概要: Over-parameterised Shallow Neural Networks with Asymmetrical Node Scaling: Global Convergence Guarantees and Feature Learning

arxiv url: http://arxiv.org/abs/2302.01002v2
Date: Tue, 18 Feb 2025 15:46:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:08.363049
Title: Over-parameterised Shallow Neural Networks with Asymmetrical Node Scaling: Global Convergence Guarantees and Feature Learning
Title（参考訳）: 非対称ノードスケーリングを用いた過パラメータ浅層ニューラルネットワーク:グローバル収束保証と特徴学習
Authors: Francois Caron, Fadhel Ayed, Paul Jung, Hoil Lee, Juho Lee, Hongseok Yang,
Abstract要約: 我々は,各隠れノードの出力を正のパラメータでスケールする,広い浅層ニューラルネットワークの最適化を検討する。このような大規模ニューラルネットワークでは、高い確率、勾配流、勾配降下が大域的に収束し、NTKパラメータ化とは異なり、何らかの意味で特徴を学習できることが証明されている。
参考スコア（独自算出の注目度）: 18.445445525911847
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider gradient-based optimisation of wide, shallow neural networks, where the output of each hidden node is scaled by a positive parameter. The scaling parameters are non-identical, differing from the classical Neural Tangent Kernel (NTK) parameterisation. We prove that for large such neural networks, with high probability, gradient flow and gradient descent converge to a global minimum and can learn features in some sense, unlike in the NTK parameterisation. We perform experiments illustrating our theoretical results and discuss the benefits of such scaling in terms of prunability and transfer learning.
Abstract（参考訳）: 我々は,各隠れノードの出力を正のパラメータでスケールする,広い浅層ニューラルネットワークの勾配に基づく最適化を検討する。スケーリングパラメータは、古典的ニューラル・タンジェント・カーネル(NTK)のパラメータ化とは異なる、識別できない。このような大規模ニューラルネットワークでは、高い確率、勾配流、勾配降下が大域的に収束し、NTKパラメータ化とは異なり、何らかの意味で特徴を学習できることが証明されている。我々は,理論結果の実証実験を行い,適用可能性や伝達学習の観点から,このようなスケーリングのメリットについて考察する。

関連論文リスト

Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。 SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文参考訳（メタデータ） (2025-03-12T17:33:13Z)
Stochastic Gradient Descent for Two-layer Neural Networks [2.0349026069285423]
本稿では、過パラメータ化された2層ニューラルネットワークに適用した場合の降下(SGD)アルゴリズムの収束率について検討する。提案手法は,NTKのタンジェントカーネル(NTK)近似と,NTKが生成する再生カーネル空間(RKHS)の収束解析を組み合わせたものである。我々の研究フレームワークは、カーネルメソッドと最適化プロセスの間の複雑な相互作用を探索し、ニューラルネットワークのダイナミクスと収束特性に光を当てることを可能にする。
論文参考訳（メタデータ） (2024-07-10T13:58:57Z)
Scalable Neural Network Kernels [22.299704296356836]
我々は、通常のフィードフォワード層(FFL)を近似できるスケーラブルニューラルネットワークカーネル(SNNK)を導入する。また、深層ニューラルネットワークアーキテクチャのコンパクト化にSNNKを適用するニューラルネットワークバンドルプロセスについても紹介する。我々のメカニズムは、競争精度を維持しながら、トレーニング可能なパラメータの最大5倍の削減を可能にする。
論文参考訳（メタデータ） (2023-10-20T02:12:56Z)
Variational Inference for Infinitely Deep Neural Networks [0.4061135251278187]
非有界深度ニューラルネットワーク(UDN) 我々は、無限に深い確率モデルである非有界深度ニューラルネットワーク(UDN)を導入し、その複雑さをトレーニングデータに適用する。我々はUDNを実データと合成データに基づいて研究する。
論文参考訳（メタデータ） (2022-09-21T03:54:34Z)
Parameter Convex Neural Networks [13.42851919291587]
本研究では,ある条件下でのニューラルネットワークのパラメータに関して凸である指数的多層ニューラルネットワーク(EMLP)を提案する。後期実験では,指数グラフ畳み込みネットワーク(EGCN)を同じアーキテクチャで構築し,グラフ分類データセット上で実験を行う。
論文参考訳（メタデータ） (2022-06-11T16:44:59Z)
Deep Architecture Connectivity Matters for Its Convergence: A Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文参考訳（メタデータ） (2022-05-11T17:43:54Z)
On Feature Learning in Neural Networks with Global Convergence Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文参考訳（メタデータ） (2022-04-22T15:56:43Z)
Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文参考訳（メタデータ） (2021-04-03T09:08:12Z)
Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文参考訳（メタデータ） (2020-12-31T18:53:25Z)
DebiNet: Debiasing Linear Models with Nonlinear Overparameterized Neural Networks [11.04121146441257]
パラメータ化ニューラルネットワークを半パラメトリックモデルに組み込んで推論と予測のギャップを埋める。我々はこれを可能とし、数値実験で実証する理論的基礎を示す。半パラメトリックニューラルネットワークに任意の特徴選択手法をプラグインするフレームワークであるDebiNetを提案する。
論文参考訳（メタデータ） (2020-11-01T04:12:53Z)
Modeling from Features: a Mean-field Framework for Over-parameterized Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文参考訳（メタデータ） (2020-07-03T01:37:16Z)
Optimal Rates for Averaged Stochastic Gradient Descent under Neural Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文参考訳（メタデータ） (2020-06-22T14:31:37Z)
On the infinite width limit of neural networks with a standard parameterization [52.07828272324366]
幅が無限大になるにつれて、これらの特性を全て保存する標準パラメータ化の補間の改善を提案する。実験により,結果のカーネルはNTKパラメータ化の結果とよく似た精度が得られることがわかった。
論文参考訳（メタデータ） (2020-01-21T01:02:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。