論文の概要: On Emergence of Clean-Priority Learning in Early Stopped Neural Networks
- arxiv url: http://arxiv.org/abs/2306.02533v1
- Date: Mon, 5 Jun 2023 01:45:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 17:17:15.336804
- Title: On Emergence of Clean-Priority Learning in Early Stopped Neural Networks
- Title(参考訳): 早期停止ニューラルネットワークにおけるクリーンプライオリティ学習の創発について
- Authors: Chaoyue Liu, Amirhesam Abedsoltan, Mikhail Belkin
- Abstract要約: トレーニングデータセットにランダムラベルノイズが付加されると、ラベルなしテストデータセット上のニューラルネットワークの予測誤差が悪化する。
この振る舞いは、ニューラルネットワークがまずクリーンデータのパターンを学習し、後にトレーニングにノイズを適合させた結果であると考えられている。
クリーン・プライオリティ学習が進むにつれて、ノイズの多いサンプルよりもクリーンなサンプルの勾配が支配的になることを示す。
- 参考スコア(独自算出の注目度): 18.725557157004214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When random label noise is added to a training dataset, the prediction error
of a neural network on a label-noise-free test dataset initially improves
during early training but eventually deteriorates, following a U-shaped
dependence on training time. This behaviour is believed to be a result of
neural networks learning the pattern of clean data first and fitting the noise
later in the training, a phenomenon that we refer to as clean-priority
learning. In this study, we aim to explore the learning dynamics underlying
this phenomenon. We theoretically demonstrate that, in the early stage of
training, the update direction of gradient descent is determined by the clean
subset of training data, leaving the noisy subset has minimal to no impact,
resulting in a prioritization of clean learning. Moreover, we show both
theoretically and experimentally, as the clean-priority learning goes on, the
dominance of the gradients of clean samples over those of noisy samples
diminishes, and finally results in a termination of the clean-priority learning
and fitting of the noisy samples.
- Abstract(参考訳): トレーニングデータセットにランダムラベルノイズを加えると、ラベルノイズのないテストデータセット上のニューラルネットワークの予測誤差は、初期トレーニング中に改善するが、トレーニング時間に対するu字型依存性により最終的に低下する。
この動作は、まずクリーンデータのパターンをニューラルネットワークが学習し、トレーニングの後にノイズを適合させることによるものだと考えられている。
本研究では,この現象の根底にある学習ダイナミクスを探ることを目的とする。
理論上, 学習の初期段階において, 勾配降下の更新方向は, 学習データのクリーンサブセットによって決定され, ノイズのある部分集合にはほとんど影響がなく, クリーン学習の優先順位付けが行われることを実証する。
さらに, クリーン・プライオリティ・ラーニングが進むにつれて, クリーン・サンプルのグラデーションがノイズのサンプルよりも優位になり, 最終的にクリーン・プライオリティ・ラーニングが終了し, ノイズ・サンプルの適合性が低下することを示した。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Benign Overfitting without Linearity: Neural Network Classifiers Trained
by Gradient Descent for Noisy Linear Data [44.431266188350655]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文 参考訳(メタデータ) (2022-02-11T23:04:00Z) - When and how epochwise double descent happens [7.512375012141203]
急激な二重降下効果は、一般化誤差が最初は減少し、その後上昇し、最終的にトレーニング時間の増加とともに再び低下する。
このことは、訓練に要する時間の長さが長く、検証性能に基づく早期停止が準最適一般化をもたらすという現実的な問題である。
本研究は, 急激な二重降下は騒音発生に要するが, 第2の臨界騒音レベル以上の早期停止は有効であることを示す。
論文 参考訳(メタデータ) (2021-08-26T19:19:17Z) - A Theoretical Analysis of Learning with Noisily Labeled Data [62.946840431501855]
最初に、最初のエポックトレーニングで、クリーンラベルの例が先に学習されることを示しました。
次に、クリーンデータステージから学習した後、継続的なトレーニングモデルがテストエラーのさらなる改善を達成できることを示します。
論文 参考訳(メタデータ) (2021-04-08T23:40:02Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。