論文の概要: Escaping mediocrity: how two-layer networks learn hard generalized
linear models with SGD
- arxiv url: http://arxiv.org/abs/2305.18502v2
- Date: Fri, 1 Mar 2024 15:45:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 20:51:07.827168
- Title: Escaping mediocrity: how two-layer networks learn hard generalized
linear models with SGD
- Title(参考訳): escaping mediocrity: 2層ネットワークがsgdでハード一般化線形モデルをどのように学習するか
- Authors: Luca Arnaboldi, Florent Krzakala, Bruno Loureiro, Ludovic Stephan
- Abstract要約: 本研究では,グラディエント・Descent (SGD) の下で一般化線形目標関数を学習するための2層ニューラルネットワークのサンプル複雑性について検討する。
オーバーファクター化は、この問題クラス内の定数因子による収束を増大させることしかできないことを示す。
しかし,このプロセスの決定論的近似は脱走時間を適切に表現し,SGDityの役割は最小限である可能性が示唆された。
- 参考スコア(独自算出の注目度): 29.162265194920522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study explores the sample complexity for two-layer neural networks to
learn a generalized linear target function under Stochastic Gradient Descent
(SGD), focusing on the challenging regime where many flat directions are
present at initialization. It is well-established that in this scenario $n=O(d
\log d)$ samples are typically needed. However, we provide precise results
concerning the pre-factors in high-dimensional contexts and for varying widths.
Notably, our findings suggest that overparameterization can only enhance
convergence by a constant factor within this problem class. These insights are
grounded in the reduction of SGD dynamics to a stochastic process in lower
dimensions, where escaping mediocrity equates to calculating an exit time. Yet,
we demonstrate that a deterministic approximation of this process adequately
represents the escape time, implying that the role of stochasticity may be
minimal in this scenario.
- Abstract(参考訳): 本研究では,2層ニューラルネットワークがSGD(Stochastic Gradient Descent)の下で一般化された線形目標関数を学習する際のサンプルの複雑さについて検討し,初期化時に多くの平坦な方向が存在する課題に着目した。
このシナリオでは、$n=O(d \log d)$サンプルは通常必要である。
しかし、高次元の文脈と様々な幅のプレファクタについて正確な結果を提供する。
特に,過パラメータ化はこの問題クラス内の定数因子によってのみ収束を増強できることが示唆された。
これらの洞察は、sgdダイナミクスをより低い次元の確率過程に還元し、脱出するメディオクラリティが終了時刻の計算に等しいことに着目する。
しかし,この過程の決定論的近似が脱出時間を表すことを証明し,確率性の役割がこのシナリオにおいて最小となることを示唆する。
関連論文リスト
- Stochastic Collapse: How Gradient Noise Attracts SGD Dynamics Towards Simpler Subnetworks [28.87871359825978]
我々は、過度に表現力のあるネットワークをもっと単純な作業へと駆動する、降下勾配(SGD)の強い暗黙バイアスを明らかにする。
より単純な(疎あるいは低ランクな)作業に対応する不変集合の2つのクラスに焦点を合わせ、現代建築に一般的に現れる。
我々は、訓練されたディープニューラルネットワークにおける魅力的な不変集合の存在を経験的に観察し、SGDのダイナミクスが、冗長なニューロンで単純な処理を消滅させることがしばしばあることを示唆している。
論文 参考訳(メタデータ) (2023-06-07T08:44:51Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - Adaptive Sketches for Robust Regression with Importance Sampling [64.75899469557272]
我々は、勾配降下(SGD)による頑健な回帰を解くためのデータ構造を導入する。
我々のアルゴリズムは、サブ線形空間を使用し、データに1回パスするだけで、SGDの$T$ステップを重要サンプリングで効果的に実行します。
論文 参考訳(メタデータ) (2022-07-16T03:09:30Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Stochastic Gradient Descent Meets Distribution Regression [0.0]
勾配降下(SGD)は、幅広い機械学習問題を解決するためのシンプルで効率的な方法である。
本稿では,2段階のサンプリングを含む分布回帰(DR)に注目した。
論文 参考訳(メタデータ) (2020-10-24T09:03:00Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - Choosing the Sample with Lowest Loss makes SGD Robust [19.08973384659313]
各ステップで単純な勾配降下法(SGD)を提案する。
しかし、バニラは最小の損失で非電流和を効果的に最小化する新しいアルゴリズムである。
ML問題に対するこの考え方の理論的分析は、小規模なニューラルネットワーク実験によって裏付けられている。
論文 参考訳(メタデータ) (2020-01-10T05:39:17Z) - Robust Learning Rate Selection for Stochastic Optimization via Splitting
Diagnostic [5.395127324484869]
SplitSGDは最適化のための新しい動的学習スケジュールである。
本手法は,対象関数の局所的幾何への適応性を向上するために学習率を低下させる。
基本的には標準のSGDよりも計算コストがかかるわけではない。
論文 参考訳(メタデータ) (2019-10-18T19:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。