論文の概要: Subquadratic Overparameterization for Shallow Neural Networks
- arxiv url: http://arxiv.org/abs/2111.01875v1
- Date: Tue, 2 Nov 2021 20:24:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 12:42:10.028629
- Title: Subquadratic Overparameterization for Shallow Neural Networks
- Title(参考訳): 浅層ニューラルネットワークのサブクアドラティックオーバーパラメータ化
- Authors: Chaehwan Song, Ali Ramezani-Kebrya, Thomas Pethick, Armin Eftekhari,
Volkan Cevher
- Abstract要約: 私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
- 参考スコア(独自算出の注目度): 60.721751363271146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overparameterization refers to the important phenomenon where the width of a
neural network is chosen such that learning algorithms can provably attain zero
loss in nonconvex training. The existing theory establishes such global
convergence using various initialization strategies, training modifications,
and width scalings. In particular, the state-of-the-art results require the
width to scale quadratically with the number of training data under standard
initialization strategies used in practice for best generalization performance.
In contrast, the most recent results obtain linear scaling either with
requiring initializations that lead to the "lazy-training", or training only a
single layer. In this work, we provide an analytical framework that allows us
to adopt standard initialization strategies, possibly avoid lazy training, and
train all layers simultaneously in basic shallow neural networks while
attaining a desirable subquadratic scaling on the network width. We achieve the
desiderata via Polyak-Lojasiewicz condition, smoothness, and standard
assumptions on data, and use tools from random matrix theory.
- Abstract(参考訳): オーバーパラメータ化(Overparameterization)とは、ニューラルネットワークの幅が選択され、学習アルゴリズムが非凸トレーニングにおいて確実に損失をゼロにする重要な現象である。
既存の理論は、様々な初期化戦略、トレーニング修正、幅スケーリングを用いて、そのような大域的な収束を確立する。
特に、最先端の結果は、実際に最高の一般化性能のために使用される標準的な初期化戦略の下でのトレーニングデータ数と2次スケールの幅を必要とする。
対照的に、最近の結果は、"遅延トレーニング"につながる初期化を必要とするか、単一のレイヤのみをトレーニングすることによって、線形スケーリングが得られる。
本研究では,標準的な初期化戦略を採用し,遅延トレーニングを回避し,基本的浅層ニューラルネットワークですべてのレイヤを同時にトレーニングし,ネットワーク幅で望ましいサブクアッドラティックスケーリングを実現するための分析フレームワークを提供する。
我々は、Polyak-Lojasiewicz条件、滑らかさ、およびデータ上の標準仮定を介してdeiderataを実現し、ランダム行列理論のツールを使用する。
関連論文リスト
- Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。
本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文 参考訳(メタデータ) (2024-06-06T23:19:57Z) - Improving Generalization of Deep Neural Networks by Optimum Shifting [33.092571599896814]
本稿では,ニューラルネットワークのパラメータを最小値からフラット値に変化させる,近位シフトと呼ばれる新しい手法を提案する。
本手法は,ニューラルネットワークの入力と出力が固定された場合,ネットワーク内の行列乗算を,未決定線形方程式系として扱うことができることを示す。
論文 参考訳(メタデータ) (2024-05-23T02:31:55Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Robust Learning of Parsimonious Deep Neural Networks [0.0]
本稿では,ニューラルネットワークにおける無関係構造を識別・排除できる同時学習および刈り取りアルゴリズムを提案する。
最適選択に欠かせないパラメータに対して,新しい超優先度分布を導出する。
我々は,提案アルゴリズムをMNISTデータセット上で評価し,完全連結型および畳み込み型LeNetアーキテクチャを用いた。
論文 参考訳(メタデータ) (2022-05-10T03:38:55Z) - Path Regularization: A Convexity and Sparsity Inducing Regularization
for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。
我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:00:36Z) - A Weight Initialization Based on the Linear Product Structure for Neural
Networks [0.0]
非線形的な観点からニューラルネットワークを研究し、ニューラルネットワークの線形積構造(LPS)に基づく新しいウェイト初期化戦略を提案する。
提案手法は, 数値代数学の理論を用いて, すべての局所最小値を求めることを保証することにより, 活性化関数の近似から導かれる。
論文 参考訳(メタデータ) (2021-09-01T00:18:59Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Optimization Theory for ReLU Neural Networks Trained with Normalization
Layers [82.61117235807606]
ディープニューラルネットワークの成功は、部分的には正規化レイヤの使用によるものだ。
我々の分析は、正規化の導入がランドスケープをどのように変化させ、より高速なアクティベーションを実現するかを示している。
論文 参考訳(メタデータ) (2020-06-11T23:55:54Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。