論文の概要: Training shallow ReLU networks on noisy data using hinge loss: when do
we overfit and is it benign?
- arxiv url: http://arxiv.org/abs/2306.09955v2
- Date: Wed, 8 Nov 2023 19:02:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 18:12:35.413233
- Title: Training shallow ReLU networks on noisy data using hinge loss: when do
we overfit and is it benign?
- Title(参考訳): ヒンジ損失によるノイズデータに対する浅いreluネットワークのトレーニング: いつ、オーバーフィットするのか、良性なのか?
- Authors: Erin George, Michael Murray, William Swartworth, Deanna Needell
- Abstract要約: 2値分類のための雑音データに対する勾配降下とヒンジ損失を訓練した2層ReLUネットワークにおける良性オーバーフィッティングについて検討した。
我々は, ゼロ損失を達成し, 高い確率テストデータを正しく分類した良性過剰適合, ゼロ損失を達成したが, テストデータが一定値の低い確率で誤分類された過適合, クリーンポイントを劣化点ではなく、ゼロ損失を達成し、また高い確率テストデータを正しく分類した, という3つの異なるトレーニング結果を生み出すクリーンデータのマージンについて, 条件を同定する。
- 参考スコア(独自算出の注目度): 12.557493236305211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study benign overfitting in two-layer ReLU networks trained using gradient
descent and hinge loss on noisy data for binary classification. In particular,
we consider linearly separable data for which a relatively small proportion of
labels are corrupted or flipped. We identify conditions on the margin of the
clean data that give rise to three distinct training outcomes: benign
overfitting, in which zero loss is achieved and with high probability test data
is classified correctly; overfitting, in which zero loss is achieved but test
data is misclassified with probability lower bounded by a constant; and
non-overfitting, in which clean points, but not corrupt points, achieve zero
loss and again with high probability test data is classified correctly. Our
analysis provides a fine-grained description of the dynamics of neurons
throughout training and reveals two distinct phases: in the first phase clean
points achieve close to zero loss, in the second phase clean points oscillate
on the boundary of zero loss while corrupt points either converge towards zero
loss or are eventually zeroed by the network. We prove these results using a
combinatorial approach that involves bounding the number of clean versus
corrupt updates across these phases of training.
- Abstract(参考訳): 勾配降下法とヒンジ損失法を用いてトレーニングした2層reluネットワークの良性過フィッティングについて検討した。
特に、比較的少数のラベルが破損または反転している線形分離可能なデータを考える。
我々は, ゼロ損失を達成し, 高い確率テストデータを正しく分類した良性過剰適合, ゼロ損失を達成したが, テストデータが一定値の低い確率で誤分類された過適合, クリーンポイントを劣化点ではなく、ゼロ損失を達成し、また高い確率テストデータを正しく分類した, という3つの異なるトレーニング結果を生み出すクリーンデータのマージンについて, 条件を特定した。
我々の分析では、トレーニングを通してニューロンのダイナミクスを詳細に記述し、第1相のクリーンポイントはゼロ損失に近づき、第2相のクリーンポイントはゼロ損失の境界で振動し、破壊ポイントはゼロ損失に向かって収束するか、最終的にネットワークによってゼロになる。
これらの結果は、これらの段階にわたるクリーンな更新と不正な更新の数を制限した組合せ的アプローチを用いて証明する。
関連論文リスト
- Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Benign Overfitting in Linear Classifiers and Leaky ReLU Networks from
KKT Conditions for Margin Maximization [59.038366742773164]
ロジスティック損失の勾配流によって訓練された線形および漏洩ReLUは、KKT条件を満たすための暗黙の偏りを持つ。
本研究では、線形分類器や2層リークReLUネットワークにおいて、これらの条件の満足度が良性オーバーフィットを意味するような設定を多数確立する。
論文 参考訳(メタデータ) (2023-03-02T18:24:26Z) - The perils of being unhinged: On the accuracy of classifiers minimizing
a noise-robust convex loss [12.132641563193584]
van Rooyen らは、凸損失関数がランダムな分類ノイズに対して頑健であるという考えを導入し、この意味では「アンヒンジ」損失関数がロバストであることを証明した。
本稿では, 未知の損失を最小化して得られる二分分類器の精度について検討し, 単純な線形分離可能なデータ分布であっても, 未知の損失を最小化すれば, ランダムな推測よりも精度の低い二分分類器が得られることを考察する。
論文 参考訳(メタデータ) (2021-12-08T20:57:20Z) - Understanding Square Loss in Training Overparametrized Neural Network
Classifiers [31.319145959402462]
過度にパラメータ化されたニューラルネットワークでどのように機能するかを体系的に検討することにより、分類における二乗損失の理論的理解に寄与する。
クラスが分離可能か否かに応じて2つのケースを考慮する。一般的な非分離可能の場合、誤分類率と校正誤差の両方について、高速収束率が確立される。
結果として得られるマージンはゼロから下界であることが証明され、ロバスト性の理論的な保証を提供する。
論文 参考訳(メタデータ) (2021-12-07T12:12:30Z) - Mixing between the Cross Entropy and the Expectation Loss Terms [89.30385901335323]
クロスエントロピー損失は、トレーニング中にサンプルを分類するのが難しくなる傾向にある。
最適化目標に期待損失を加えることで,ネットワークの精度が向上することを示す。
実験により,新しいトレーニングプロトコルにより,多様な分類領域における性能が向上することが示された。
論文 参考訳(メタデータ) (2021-09-12T23:14:06Z) - Sample Selection with Uncertainty of Losses for Learning with Noisy
Labels [145.06552420999986]
ノイズの多いラベルで学習する際、サンプル選択アプローチは非常に人気があり、小さなロスデータをトレーニング中に正しくラベル付けされているとみなす。
しかし、ノイズラベルでトレーニングされたモデルに基づいて、損失をオンザフライで発生させるため、大容量のデータはおそらく正しくないが、確実に誤りではない。
本稿では,損失点推定の代わりに間隔推定を採用することにより,損失の不確実性を取り入れる。
論文 参考訳(メタデータ) (2021-06-01T12:53:53Z) - Learning from Noisy Labels via Dynamic Loss Thresholding [69.61904305229446]
我々はDLT(Dynamic Loss Thresholding)という新しい手法を提案する。
トレーニングプロセス中、DLTは各サンプルの損失値を記録し、動的損失閾値を算出する。
CIFAR-10/100 と Clothing1M の実験は、最近の最先端手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-04-01T07:59:03Z) - When does gradient descent with logistic loss find interpolating
two-layer networks? [51.1848572349154]
また,初期損失が十分小さい場合,勾配降下がトレーニング損失をゼロにすることを示した。
データが一定のクラスタと分離条件を満たし、ネットワークが十分に広い場合、勾配降下の一段階が、最初の結果が適用されるほど損失を十分に減少させることを示す。
論文 参考訳(メタデータ) (2020-12-04T05:16:51Z) - Robust binary classification with the 01 loss [0.0]
線形01損失と1つの隠蔽層01損失ニューラルネットワークの座標降下アルゴリズムを開発した。
本稿では,線形サポートベクトルマシンとロジスティックロス単一隠蔽層ネットワークとを高速かつ精度良く比較した。
論文 参考訳(メタデータ) (2020-02-09T20:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。