論文の概要: When Expressivity Meets Trainability: Fewer than $n$ Neurons Can Work
- arxiv url: http://arxiv.org/abs/2210.12001v1
- Date: Fri, 21 Oct 2022 14:41:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 15:36:22.949896
- Title: When Expressivity Meets Trainability: Fewer than $n$ Neurons Can Work
- Title(参考訳): Expressivityがトレーニング能力に出会ったとき:$n$のニューロンが使える
- Authors: Jiawei Zhang, Yushun Zhang, Mingyi Hong, Ruoyu Sun, Zhi-Quan Luo
- Abstract要約: 幅が$m geq 2n/d$($d$は入力次元)である限り、その表現性は強く、すなわち、訓練損失がゼロの少なくとも1つの大域最小化器が存在することを示す。
また、実現可能な領域がよい局所領域であるような制約付き最適化の定式化も検討し、すべてのKKT点がほぼ大域最小値であることを示す。
- 参考スコア(独自算出の注目度): 59.29606307518154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern neural networks are often quite wide, causing large memory and
computation costs. It is thus of great interest to train a narrower network.
However, training narrow neural nets remains a challenging task. We ask two
theoretical questions: Can narrow networks have as strong expressivity as wide
ones? If so, does the loss function exhibit a benign optimization landscape? In
this work, we provide partially affirmative answers to both questions for
1-hidden-layer networks with fewer than $n$ (sample size) neurons when the
activation is smooth. First, we prove that as long as the width $m \geq 2n/d$
(where $d$ is the input dimension), its expressivity is strong, i.e., there
exists at least one global minimizer with zero training loss. Second, we
identify a nice local region with no local-min or saddle points. Nevertheless,
it is not clear whether gradient descent can stay in this nice region. Third,
we consider a constrained optimization formulation where the feasible region is
the nice local region, and prove that every KKT point is a nearly global
minimizer. It is expected that projected gradient methods converge to KKT
points under mild technical conditions, but we leave the rigorous convergence
analysis to future work. Thorough numerical results show that projected
gradient methods on this constrained formulation significantly outperform SGD
for training narrow neural nets.
- Abstract(参考訳): 現代のニューラルネットワークは、しばしば非常に広く、大きなメモリと計算コストを引き起こす。
したがって、より狭いネットワークを訓練することが非常に興味深い。
しかし、狭いニューラルネットワークのトレーニングは依然として難しい課題である。
狭いネットワークは、幅の広いネットワークと同じくらい強い表現性を持つことができるか?
もしそうなら、損失関数は良質な最適化景観を示すだろうか?
本研究では,活性化がスムーズな場合,n$ (サンプルサイズ) 未満の1-hidden層ネットワークに対して,両質問に部分的に肯定的な回答を与える。
まず、幅$m \geq 2n/d$(ここで$d$は入力次元)の限り、その表現性は強く、つまりトレーニング損失ゼロの少なくとも1つの大域的最小値が存在することを証明します。
第2に,ローカルミンやサドルポイントのない素敵なローカルリージョンを識別する。
それでも、勾配降下がこのよい地域に留まるのかは明らかではない。
第三に、実現可能な領域がよい局所領域であるような制約付き最適化の定式化を考え、すべてのKKT点がほぼ大域的最小値であることを示す。
適度な技術的条件下では, 投影勾配法がkkt点に収束することが期待されるが, 厳密な収束解析は今後の課題に委ねる。
厳密な数値計算により、この制約付き定式化上の投影勾配法は、狭いニューラルネットワークの訓練にsgdを大幅に上回ることを示した。
関連論文リスト
- Memorization Capacity for Additive Fine-Tuning with Small ReLU Networks [16.320374162259117]
Fine-Tuning Capacity (FTC)は、ニューラルネットワークが微調整できるサンプルの最大数として定義される。
2層ネットワークの$m=Theta(N)$ニューロンと3層ネットワークの$m=Theta(sqrtN)$ニューロンで、$K$がいくら大きいとしても、$N$サンプルを微調整できることが示される。
論文 参考訳(メタデータ) (2024-08-01T07:58:51Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文 参考訳(メタデータ) (2023-03-07T18:59:38Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Feature Learning in $L_{2}$-regularized DNNs: Attraction/Repulsion and
Sparsity [9.077741848403791]
パラメータの損失は、トレーニングセットの層単位でのアクティベーション$Z_ell$の損失に再計算可能であることを示す。
この改革は、機能学習の背景にあるダイナミクスを明らかにします。
論文 参考訳(メタデータ) (2022-05-31T14:10:15Z) - Overparameterization of deep ResNet: zero loss and mean-field analysis [19.45069138853531]
データに適合するディープニューラルネットワーク(NN)内のパラメータを見つけることは、非最適化問題である。
基礎的な一階述語最適化法(漸進降下法)は,多くの現実的状況に完全に適合した大域的解を求める。
所定の閾値未満の損失を減らすために必要な深さと幅を高い確率で推定する。
論文 参考訳(メタデータ) (2021-05-30T02:46:09Z) - A Geometric Analysis of Neural Collapse with Unconstrained Features [40.66585948844492]
Neural;Collapse$の最初のグローバル最適化ランドスケープ分析を提供します。
この現象は、トレーニングの終末期におけるニューラルネットワークのラスト層分類器と特徴に現れる。
論文 参考訳(メタデータ) (2021-05-06T00:00:50Z) - A Revision of Neural Tangent Kernel-based Approaches for Neural Networks [34.75076385561115]
ニューラルネットワークカーネルを使用して、ネットワークが任意の有限トレーニングサンプルに完全に適合できることを示す。
単純で解析的なカーネル関数は、完全に訓練されたネットワークと同等のものとして導出された。
より厳密な分析により,スケーリングの問題が解決され,元のNTKに基づく結果の検証が可能となった。
論文 参考訳(メタデータ) (2020-07-02T05:07:55Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。