論文の概要: Phases of learning dynamics in artificial neural networks: with or
without mislabeled data
- arxiv url: http://arxiv.org/abs/2101.06509v1
- Date: Sat, 16 Jan 2021 19:44:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 05:53:47.170319
- Title: Phases of learning dynamics in artificial neural networks: with or
without mislabeled data
- Title(参考訳): 人工ニューラルネットワークにおける学習ダイナミクスのフェーズ:誤ったラベルデータの有無
- Authors: Yu Feng and Yuhai Tu
- Abstract要約: ニューラルネットワークにおける学習を駆動する勾配降下のダイナミクスについて研究する。
ラベルを間違えたデータがないと、SGD学習のダイナミクスは高速な学習段階から遅い探索段階へと移行する。
2つのデータセットの個々のサンプル損失は、フェーズIIで最も分離されている。
- 参考スコア(独自算出の注目度): 3.3576886095389296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite tremendous success of deep neural network in machine learning, the
underlying reason for its superior learning capability remains unclear. Here,
we present a framework based on statistical physics to study dynamics of
stochastic gradient descent (SGD) that drives learning in neural networks. By
using the minibatch gradient ensemble, we construct order parameters to
characterize dynamics of weight updates in SGD. Without mislabeled data, we
find that the SGD learning dynamics transitions from a fast learning phase to a
slow exploration phase, which is associated with large changes in order
parameters that characterize the alignment of SGD gradients and their mean
amplitude. In the case with randomly mislabeled samples, SGD learning dynamics
falls into four distinct phases. The system first finds solutions for the
correctly labeled samples in phase I, it then wanders around these solutions in
phase II until it finds a direction to learn the mislabeled samples during
phase III, after which it finds solutions that satisfy all training samples
during phase IV. Correspondingly, the test error decreases during phase I and
remains low during phase II; however, it increases during phase III and reaches
a high plateau during phase IV. The transitions between different phases can be
understood by changes of order parameters that characterize the alignment of
mean gradients for the correctly and incorrectly labeled samples and their
(relative) strength during learning. We find that individual sample losses for
the two datasets are most separated during phase II, which leads to a cleaning
process to eliminate mislabeled samples for improving generalization.
- Abstract(参考訳): 機械学習におけるディープニューラルネットワークの成功にもかかわらず、その優れた学習能力の根底にある理由はいまだ不明だ。
本稿では,ニューラルネットワークにおける学習を促進する確率的勾配降下(sgd)のダイナミクスを研究するための統計物理学に基づく枠組みを提案する。
ミニバッチ勾配アンサンブルを用いることで,sgdにおける重み更新のダイナミクスを特徴付ける順序パラメータを構築する。
誤ラベルデータがないと、sgd学習ダイナミクスは、sgd勾配とその平均振幅のアライメントを特徴付ける順序パラメータに大きな変化を伴う、高速な学習フェーズから遅い探索フェーズへと遷移する。
ランダムにラベルを間違えたサンプルの場合、SGD学習ダイナミクスは4つの異なるフェーズに分類される。
システムはまず第1相で正しくラベル付けされたサンプルの解を見つけ、その後第2相でこれらの解をさまよって、第III相で間違ったラベル付けされたサンプルを学習する方向を見つけ、その後第4相で全てのトレーニングサンプルを満たす解を見つける。
一方,第i相では試験誤差が減少し,第ii相では低くなるが,第iii相では増加し,第iv相では高台に達する。
異なる位相間の遷移は、学習中の平均勾配のアライメントと(相対的な)強さを特徴付ける順序パラメータの変化によって理解することができる。
2つのデータセットの個々のサンプル損失は、フェーズiiで最も分離されていることが分かり、一般化を改善するために誤ってラベルされたサンプルを取り除くためのクリーニングプロセスに繋がる。
関連論文リスト
- Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文 参考訳(メタデータ) (2024-10-12T17:50:58Z) - Learning in PINNs: Phase transition, total diffusion, and generalization [1.8802875123957965]
勾配信号-雑音比(SNR)のレンズを用いた完全連結ニューラルネットワークの学習力学について検討する。
全拡散と呼ばれる第3相を同定する」。
本稿では,情報誘起圧縮現象を考察し,全拡散相におけるアクティベーションの顕著な圧縮を示唆する。
論文 参考訳(メタデータ) (2024-03-27T12:10:30Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - From Stability to Chaos: Analyzing Gradient Descent Dynamics in
Quadratic Regression [14.521929085104441]
本研究では2次回帰モデルの文脈における高次定数ステップサイズを用いた勾配降下のダイナミクスについて検討する。
1) 単調, (2) カタパルト, (3) 周期, (4) カオス, (5) 発散の5つの異なる訓練段階を列挙した。
特に,エルゴード軌道平均化は非単調(および非発散)相における試験誤差を安定化させる。
論文 参考訳(メタデータ) (2023-10-02T22:59:17Z) - Gradient-Based Feature Learning under Structured Data [57.76552698981579]
異方性設定では、一般的に使用される球面勾配力学は真の方向を回復できないことがある。
バッチ正規化を連想させる適切な重み正規化は、この問題を軽減することができることを示す。
特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にできる。
論文 参考訳(メタデータ) (2023-09-07T16:55:50Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - The effective noise of Stochastic Gradient Descent [9.645196221785694]
Gradient Descent (SGD) は、ディープラーニング技術のワークホースアルゴリズムである。
SGDのパラメータと最近導入された変種である永続型SGDをニューラルネットワークモデルで特徴づける。
よりノイズの多いアルゴリズムは、対応する制約満足度問題のより広い決定境界につながる。
論文 参考訳(メタデータ) (2021-12-20T20:46:19Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Unsupervised machine learning of topological phase transitions from
experimental data [52.77024349608834]
超低温原子からの実験データに教師なし機械学習技術を適用する。
我々は、完全にバイアスのない方法で、ハルダンモデルの位相位相図を得る。
我々の研究は、複雑な多体系における新しいエキゾチック位相の教師なし検出のためのベンチマークを提供する。
論文 参考訳(メタデータ) (2021-01-14T16:38:21Z) - Two-Phase Learning for Overcoming Noisy Labels [16.390094129357774]
本稿では,ネットワークが偽ラベルのサンプルを記憶し始めた時点で,学習フェーズを自動移行する2段階学習手法を提案する。
MorPHは、テストエラーとトレーニング時間の点で5つの最先端の方法を大幅に上回ります。
論文 参考訳(メタデータ) (2020-12-08T10:25:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。