論文の概要: Hidden Progress in Deep Learning: SGD Learns Parities Near the
Computational Limit
- arxiv url: http://arxiv.org/abs/2207.08799v1
- Date: Mon, 18 Jul 2022 17:55:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 14:09:53.048934
- Title: Hidden Progress in Deep Learning: SGD Learns Parities Near the
Computational Limit
- Title(参考訳): ディープラーニングの隠れた進歩:SGDは計算限界付近の親たちを学ぶ
- Authors: Boaz Barak, Benjamin L. Edelman, Surbhi Goel, Sham Kakade, Eran
Malach, Cyril Zhang
- Abstract要約: この研究は、$k$sparseパリティを$n$bitsで学習するレンズを通してそのような探索を行う。
データセットのサイズと実行時間をスケールアップする際、ニューラルネットワークは驚くほどの位相遷移を示す。
- 参考スコア(独自算出の注目度): 36.17720004582283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is mounting empirical evidence of emergent phenomena in the
capabilities of deep learning methods as we scale up datasets, model sizes, and
training times. While there are some accounts of how these resources modulate
statistical capacity, far less is known about their effect on the computational
problem of model training. This work conducts such an exploration through the
lens of learning $k$-sparse parities of $n$ bits, a canonical family of
problems which pose theoretical computational barriers. In this setting, we
find that neural networks exhibit surprising phase transitions when scaling up
dataset size and running time. In particular, we demonstrate empirically that
with standard training, a variety of architectures learn sparse parities with
$n^{O(k)}$ examples, with loss (and error) curves abruptly dropping after
$n^{O(k)}$ iterations. These positive results nearly match known SQ lower
bounds, even without an explicit sparsity-promoting prior. We elucidate the
mechanisms of these phenomena with a theoretical analysis: we find that the
phase transition in performance is not due to SGD "stumbling in the dark" until
it finds the hidden set of features (a natural algorithm which also runs in
$n^{O(k)}$ time); instead, we show that SGD gradually amplifies a Fourier gap
in the population gradient.
- Abstract(参考訳): データセット、モデルサイズ、トレーニング時間をスケールアップする深層学習手法の能力には、創発的な現象の実証的な証拠が積み重なっている。
これらの資源がどのように統計容量を調節するかについてはいくつかの説明があるが、モデルトレーニングの計算問題に対する影響についてはあまり知られていない。
この研究は、理論計算の障壁となる正準問題群であるn$bitのk$-sparseパリティを学習するレンズを通してそのような探索を行う。
この設定では、データセットのサイズと実行時間をスケールアップする際、ニューラルネットワークは驚くほどの位相遷移を示す。
特に、標準的なトレーニングでは、さまざまなアーキテクチャが$n^{o(k)$の例でスパースパリティを学習し、$n^{o(k)$の反復の後に突然低下する損失(とエラー)曲線を実証する。
これらの正の結果は既知のSQ下界とほぼ一致し、明示的なスパース性プロモーティングを伴わない。
我々はこれらの現象のメカニズムを理論的解析により解明し、SGDが隠れた特徴群($n^{O(k)}$時間で走る自然なアルゴリズム)を見つけるまで、性能の位相遷移は「暗く揺れる」ことによるものではなく、SGDは徐々に人口勾配のフーリエギャップを増幅することを示した。
関連論文リスト
- Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。
例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。
SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文 参考訳(メタデータ) (2022-10-26T21:03:46Z) - Scaling ResNets in the Large-depth Regime [11.374578778690623]
Deep ResNetは、機械学習タスクで最先端の結果を達成するために認識されている。
Deep ResNetsは、勾配の消滅や爆発を避けるために慎重に設計する必要があるトレーニング手順に依存している。
この問題を緩和する方法については合意が得られていないが、広く議論されている戦略は、各レイヤの出力を$alpha_L$でスケーリングすることである。
論文 参考訳(メタデータ) (2022-06-14T15:49:10Z) - A Communication-Efficient Distributed Gradient Clipping Algorithm for
Training Deep Neural Networks [11.461878019780597]
グラディエントDescentは、ディープニューラルネットワークにおいてゆっくりと収束する。
勾配クリッピング方式が並列スピードアップを楽しむために複数のマシンを活用できるかどうかは謎のままである。
論文 参考訳(メタデータ) (2022-05-10T16:55:33Z) - Understanding the Under-Coverage Bias in Uncertainty Estimation [58.03725169462616]
量子レグレッションは、現実の望ましいカバレッジレベルよりもアンファンダーカバー(enmphunder-cover)する傾向がある。
我々は、量子レグレッションが固有のアンダーカバーバイアスに悩まされていることを証明している。
我々の理論は、この過大被覆バイアスが特定の高次元パラメータ推定誤差に起因することを明らかにしている。
論文 参考訳(メタデータ) (2021-06-10T06:11:55Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Analysis of feature learning in weight-tied autoencoders via the mean
field lens [3.553493344868413]
平均場フレームワークにおける2層重み付き非線形オートエンコーダのクラスを解析する。
勾配降下で訓練されたモデルでは平均場制限ダイナミクスが認められる。
実生活データに関する実験は、この理論と興味深い一致を示した。
論文 参考訳(メタデータ) (2021-02-16T18:58:37Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - The Impact of the Mini-batch Size on the Variance of Gradients in
Stochastic Gradient Descent [28.148743710421932]
ミニバッチ勾配勾配(SGD)アルゴリズムは機械学習モデルのトレーニングに広く用いられている。
線形回帰および2層線形ネットワーク下でのSGDダイナミクスについて検討し,より深い線形ネットワークへの拡張を容易にする。
論文 参考訳(メタデータ) (2020-04-27T20:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。