論文の概要: Dynamically Stable Infinite-Width Limits of Neural Classifiers
- arxiv url: http://arxiv.org/abs/2006.06574v2
- Date: Thu, 22 Oct 2020 12:56:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 10:12:34.405008
- Title: Dynamically Stable Infinite-Width Limits of Neural Classifiers
- Title(参考訳): ニューラル分類器の動的安定無限幅限界
- Authors: Eugene A. Golikov
- Abstract要約: 本稿では,ニューラルネットワークの限界挙動が,ネットワーク幅を持つハイパーパラメータのスケーリングにどのように依存するかを検討するための一般的な枠組みを提案する。
既存の MF と NTK の極限モデルと1つの新しい極限モデルは、有限幅モデルによって示されるほとんどの特性を満たす。
- 参考スコア(独自算出の注目度): 6.09170287691728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has been focused on two different approaches to studying
neural networks training in the limit of infinite width (1) a mean-field (MF)
and (2) a constant neural tangent kernel (NTK) approximations. These two
approaches have different scaling of hyperparameters with the width of a
network layer and as a result, different infinite-width limit models. We
propose a general framework to study how the limit behavior of neural models
depends on the scaling of hyperparameters with network width. Our framework
allows us to derive scaling for existing MF and NTK limits, as well as an
uncountable number of other scalings that lead to a dynamically stable limit
behavior of corresponding models. However, only a finite number of distinct
limit models are induced by these scalings. Each distinct limit model
corresponds to a unique combination of such properties as boundedness of logits
and tangent kernels at initialization or stationarity of tangent kernels.
Existing MF and NTK limit models, as well as one novel limit model, satisfy
most of the properties demonstrated by finite-width models. We also propose a
novel initialization-corrected mean-field limit that satisfies all properties
noted above, and its corresponding model is a simple modification for a
finite-width model.
- Abstract(参考訳): 最近の研究は、無限幅(1)平均場(mf)と(2)定数神経接核(ntk)近似の限界でニューラルネットワークのトレーニングを研究するための2つの異なるアプローチに焦点を当てている。
これらの2つのアプローチは、ネットワーク層の幅で異なるハイパーパラメータのスケーリングを持ち、結果として異なる無限幅制限モデルを持つ。
本稿では,神経モデルの極限挙動がネットワーク幅を持つハイパーパラメータのスケーリングに依存するかを検討するための一般的な枠組みを提案する。
私たちのフレームワークでは、既存のmfとntkのリミットに対するスケーリングや、対応するモデルの動的に安定したリミット動作につながる他のスケーリングの数を導き出します。
しかし、これらのスケーリングによって引き起こされるのは有限個の異なる極限モデルのみである。
各異なる極限モデルは、接カーネルの初期化や定常性におけるロジットと接カーネルの境界性のような特性のユニークな組み合わせに対応する。
既存のMFおよびNTK制限モデルと1つの新しい極限モデルは、有限幅モデルによって示されるほとんどの特性を満たす。
また、上記の全ての特性を満たす新しい初期化補正平均場極限を提案し、対応するモデルは有限幅モデルの簡単な修正である。
関連論文リスト
- On the Neural Tangent Kernel of Equilibrium Models [72.29727250679477]
本研究は、Deep equilibrium(DEQ)モデルのニューラル・タンジェント・カーネル(NTK)を研究する。
一方,DECモデルでは,幅と深さが無限大であるにもかかわらず,まだ決定論的NTKを満足していることを示す。
論文 参考訳(メタデータ) (2023-10-21T16:47:18Z) - A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer
Neural Networks [49.870593940818715]
本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。
我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
論文 参考訳(メタデータ) (2022-10-28T17:26:27Z) - High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。
下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。
この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文 参考訳(メタデータ) (2022-06-08T17:42:18Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - On the Generalization Power of Overfitted Two-Layer Neural Tangent
Kernel Models [42.72822331030195]
min $ell$-norm overfitting solution for the neural tangent kernel (NTK) model of a two-layer neural network. (英語)
本研究では, 地上真理関数に応じて, NTKモデルの試験誤差は, 「二重日射」と異なる特性を示すことを示した。
このクラス以外の関数に対しては、$n$ と $p$ の両方が大きかったとしても 0 に減少しない一般化エラーの低い境界を提供します。
論文 参考訳(メタデータ) (2021-03-09T06:24:59Z) - Provable Model-based Nonlinear Bandit and Reinforcement Learning: Shelve
Optimism, Embrace Virtual Curvature [61.22680308681648]
決定論的報酬を有する1層ニューラルネットバンディットにおいても,グローバル収束は統計的に難解であることを示す。
非線形バンディットとRLの両方に対して,オンラインモデル学習者による仮想アセンジ(Virtual Ascent with Online Model Learner)というモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T12:41:56Z) - Feature Learning in Infinite-Width Neural Networks [17.309380337367536]
ニューラルネットワークの標準およびNTKパラメトリゼーションは、特徴を学習できる無限幅制限を認めないことを示す。
本稿では,標準パラメトリゼーションの簡易な修正を提案し,その限界における特徴学習を実現する。
論文 参考訳(メタデータ) (2020-11-30T03:21:05Z) - A Dynamical Central Limit Theorem for Shallow Neural Networks [48.66103132697071]
平均極限の周りのゆらぎは、トレーニングを通して平均正方形に有界であることを証明する。
平均場ダイナミクスがトレーニングデータを補間する尺度に収束すると、最終的にCLTスケーリングにおいて偏差が消えることを示す。
論文 参考訳(メタデータ) (2020-08-21T18:00:50Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。