論文の概要: Feature selection with gradient descent on two-layer networks in
low-rotation regimes
- arxiv url: http://arxiv.org/abs/2208.02789v1
- Date: Thu, 4 Aug 2022 17:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 12:29:36.786909
- Title: Feature selection with gradient descent on two-layer networks in
low-rotation regimes
- Title(参考訳): 低回転状態における二層ネットワーク上の勾配勾配による特徴選択
- Authors: Matus Telgarsky
- Abstract要約: 本研究では,2層ReLUネットワーク上での勾配流(GF)と勾配勾配勾配(SGD)の低試験誤差を確立する。
マージンをコア分析技術として利用する。
- 参考スコア(独自算出の注目度): 20.41989568533313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work establishes low test error of gradient flow (GF) and stochastic
gradient descent (SGD) on two-layer ReLU networks with standard initialization,
in three regimes where key sets of weights rotate little (either naturally due
to GF and SGD, or due to an artificial constraint), and making use of margins
as the core analytic technique. The first regime is near initialization,
specifically until the weights have moved by $\mathcal{O}(\sqrt m)$, where $m$
denotes the network width, which is in sharp contrast to the $\mathcal{O}(1)$
weight motion allowed by the Neural Tangent Kernel (NTK); here it is shown that
GF and SGD only need a network width and number of samples inversely
proportional to the NTK margin, and moreover that GF attains at least the NTK
margin itself, which suffices to establish escape from bad KKT points of the
margin objective, whereas prior work could only establish nondecreasing but
arbitrarily small margins. The second regime is the Neural Collapse (NC)
setting, where data lies in extremely-well-separated groups, and the sample
complexity scales with the number of groups; here the contribution over prior
work is an analysis of the entire GF trajectory from initialization. Lastly, if
the inner layer weights are constrained to change in norm only and can not
rotate, then GF with large widths achieves globally maximal margins, and its
sample complexity scales with their inverse; this is in contrast to prior work,
which required infinite width and a tricky dual convergence assumption. As
purely technical contributions, this work develops a variety of potential
functions and other tools which will hopefully aid future work.
- Abstract(参考訳): 本研究は,標準初期化を伴う2層reluネットワーク上での勾配流(gf)と確率勾配降下(sgd)の低試験誤差を,重みの鍵集合がほとんど回転しない3つの領域(gfとsgdが自然に原因で,あるいは人工的な制約のため)において確立し,マージンをコア分析手法として利用する。
The first regime is near initialization, specifically until the weights have moved by $\mathcal{O}(\sqrt m)$, where $m$ denotes the network width, which is in sharp contrast to the $\mathcal{O}(1)$ weight motion allowed by the Neural Tangent Kernel (NTK); here it is shown that GF and SGD only need a network width and number of samples inversely proportional to the NTK margin, and moreover that GF attains at least the NTK margin itself, which suffices to establish escape from bad KKT points of the margin objective, whereas prior work could only establish nondecreasing but arbitrarily small margins.
第2のレジームは神経崩壊(neural collapse:nc)設定であり、データは極端によく分離されたグループにあり、サンプル複雑性はグループ数に比例してスケールする。
最後に、内層重みがノルムでのみ変化することを制約され、回転できない場合、大きな幅を持つGFは、大域的に最大のマージンを達成し、そのサンプルの複雑さはその逆でスケールする。
純粋に技術的な貢献として、この研究は様々な潜在的な機能やツールを開発し、将来の作業に役立つことを期待している。
関連論文リスト
- Sharper Guarantees for Learning Neural Network Classifiers with Gradient Methods [43.32546195968771]
本研究では,スムーズなアクティベーションを有するニューラルネットワークに対する勾配法におけるデータ依存収束と一般化挙動について検討する。
我々の結果は、よく確立されたRadecher複雑性に基づく境界の欠点を改善した。
XOR分布の分類において、NTK体制の結果に対して大きなステップサイズが大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2024-10-13T21:49:29Z) - Preconditioned Gradient Descent Finds Over-Parameterized Neural Networks with Sharp Generalization for Nonparametric Regression [8.130817534654089]
本稿では、勾配降下(GD)またはその変種により訓練された2層ニューラルネットワークによる非パラメトリック回帰を考察する。
ニューラルネットワークが早期停止を伴う新しいプレコンディション付きグラディエント・ディフレクション(PGD)でトレーニングされ、ターゲット関数がディープラーニング文献において広く研究されているスペクトルバイアスを持つ場合、トレーニングされたネットワークは、特に、極小値の最大速度が$cO(1/n4alpha/(4alpha+1)$で制限されたシャープな一般化をレンダリングする。
論文 参考訳(メタデータ) (2024-07-16T03:38:34Z) - Implicit Bias and Fast Convergence Rates for Self-attention [30.08303212679308]
トランスフォーマーのコアメカニズムであるセルフアテンションは、従来のニューラルネットワークと区別し、その優れたパフォーマンスを駆動する。
固定線形復号器をバイナリに固定した自己アテンション層をトレーニングする際の勾配降下(GD)の暗黙バイアスについて検討した。
W_t$ から $W_mm$ に対する最初の有限時間収束率と、注意写像のスペーサー化率を提供する。
論文 参考訳(メタデータ) (2024-02-08T15:15:09Z) - Approximation Results for Gradient Descent trained Neural Networks [0.0]
ネットワークは完全に接続された一定の深さ増加幅である。
連続カーネルエラーノルムは、滑らかな関数に必要な自然な滑らかさの仮定の下での近似を意味する。
論文 参考訳(メタデータ) (2023-09-09T18:47:55Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - $\texttt{FedBC}$: Calibrating Global and Local Models via Federated
Learning Beyond Consensus [66.62731854746856]
フェデレートラーニング(FL)では、デバイス全体にわたるモデル更新の集約を通じて、グローバルモデルを協調的に学習する目的は、ローカル情報を通じたパーソナライズという目標に反対する傾向にある。
本研究では,このトレードオフを多基準最適化により定量的にキャリブレーションする。
私たちは、$texttFedBC$が、スイートデータセット間でグローバルおよびローカルモデルのテスト精度のメトリクスのバランスをとることを実証しています。
論文 参考訳(メタデータ) (2022-06-22T02:42:04Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - The Sample Complexity of One-Hidden-Layer Neural Networks [57.6421258363243]
本研究では,スカラー値を持つ一層ネットワークのクラスとユークリッドノルムで有界な入力について検討する。
隠蔽層重み行列のスペクトルノルムの制御は、一様収束を保証するには不十分であることを示す。
スペクトルノルム制御が十分であることを示す2つの重要な設定を解析する。
論文 参考訳(メタデータ) (2022-02-13T07:12:02Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。