論文の概要: Disparity Between Batches as a Signal for Early Stopping
- arxiv url: http://arxiv.org/abs/2107.06665v1
- Date: Wed, 14 Jul 2021 12:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 14:15:43.226354
- Title: Disparity Between Batches as a Signal for Early Stopping
- Title(参考訳): 早期停止信号としてのバッチ間のばらつき
- Authors: Mahsa Forouzesh and Patrick Thiran
- Abstract要約: ミニバッチ勾配勾配で学習したディープニューラルネットワークの一般化能力を評価するための指標を提案する。
我々の計量は勾配分散と呼ばれ、トレーニングセットから引き出された2つのミニバッチの勾配ベクトル間の$ell$ノルム距離である。
- 参考スコア(独自算出の注目度): 7.614628596146601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a metric for evaluating the generalization ability of deep neural
networks trained with mini-batch gradient descent. Our metric, called gradient
disparity, is the $\ell_2$ norm distance between the gradient vectors of two
mini-batches drawn from the training set. It is derived from a probabilistic
upper bound on the difference between the classification errors over a given
mini-batch, when the network is trained on this mini-batch and when the network
is trained on another mini-batch of points sampled from the same dataset. We
empirically show that gradient disparity is a very promising early-stopping
criterion (i) when data is limited, as it uses all the samples for training and
(ii) when available data has noisy labels, as it signals overfitting better
than the validation data. Furthermore, we show in a wide range of experimental
settings that gradient disparity is strongly related to the generalization
error between the training and test sets, and that it is also very informative
about the level of label noise.
- Abstract(参考訳): ミニバッチ勾配勾配で学習したディープニューラルネットワークの一般化能力を評価するための指標を提案する。
我々の計量は勾配分散と呼ばれ、トレーニングセットから引き出された2つのミニバッチの勾配ベクトル間の$\ell_2$ノルム距離である。
ネットワークがこのミニバッチでトレーニングされた場合と、同じデータセットからサンプリングされた別のミニバッチでネットワークがトレーニングされた場合の、与えられたミニバッチに対する分類誤差の差に関する確率的上限から導かれる。
我々は,データに制限がある場合には,勾配差が非常に有望な早期停止基準(i)であることを実証的に示し,(ii) 利用可能なデータにノイズラベルがある場合には,バリデーションデータよりも過剰に適合することを示す。
さらに,学習セットとテストセット間の一般化誤差に勾配差が強く関係していること,ラベルノイズのレベルについても非常に有意であることを示す。
関連論文リスト
- Unifying Token and Span Level Supervisions for Few-Shot Sequence
Labeling [18.24907067631541]
短いショットシーケンスラベリングは、少数のラベル付きサンプルに基づいて新しいクラスを特定することを目的としている。
本稿では,数ショットのシーケンスラベリングのためのCDAP(Consistent Dual Adaptive Prototypeal)ネットワークを提案する。
本モデルでは,3つのベンチマークデータセットに対して,最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2023-07-16T04:50:52Z) - FewSOME: One-Class Few Shot Anomaly Detection with Siamese Networks [0.5735035463793008]
FewSOME (Few Shot anOMaly Detection) は深層一級異常検出アルゴリズムであり、異常を正確に検出できる。
FewSOMEは、Siamese Networksをベースとしたアーキテクチャで事前訓練されたウェイトによって支援されている。
我々の実験は、ベンチマークデータセット上でFewSOMEのパフォーマンスを最先端レベルで実証した。
論文 参考訳(メタデータ) (2023-01-17T15:32:34Z) - Learning Compact Features via In-Training Representation Alignment [19.273120635948363]
各エポックでは、トレーニングセットからサンプリングしたミニバッチを用いて損失関数の真の勾配を推定する。
In-Training Representation Alignment (ITRA) を提案する。
また,特徴表現学習における一致損失の望ましい影響を厳密に分析する。
論文 参考訳(メタデータ) (2022-11-23T22:23:22Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - Learning from Data with Noisy Labels Using Temporal Self-Ensemble [11.245833546360386]
ディープニューラルネットワーク(DNN)はノイズラベルを記憶する膨大な能力を持つ。
現在最先端の手法では、損失の少ないサンプルを用いて二重ネットワークを訓練するコトレーニング方式が提案されている。
本稿では,単一のネットワークのみをトレーニングすることで,シンプルで効果的なロバストトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T08:16:31Z) - BatchFormer: Learning to Explore Sample Relationships for Robust
Representation Learning [93.38239238988719]
本稿では,各ミニバッチからサンプル関係を学習可能なディープニューラルネットワークを提案する。
BatchFormerは各ミニバッチのバッチ次元に適用され、トレーニング中のサンプル関係を暗黙的に探索する。
我々は10以上のデータセットに対して広範な実験を行い、提案手法は異なるデータ不足アプリケーションにおいて大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-03-03T05:31:33Z) - An analysis of over-sampling labeled data in semi-supervised learning
with FixMatch [66.34968300128631]
ほとんどの半教師付き学習手法は、ミニバッチを訓練する際にラベルをオーバーサンプルする。
本稿では,この実践が学習と方法を改善するかどうかを考察する。
ラベル付けの有無に関わらず、トレーニングデータから各ミニバッチを均一にサンプリングする別の設定と比較する。
論文 参考訳(メタデータ) (2022-01-03T12:22:26Z) - When does gradient descent with logistic loss find interpolating
two-layer networks? [51.1848572349154]
また,初期損失が十分小さい場合,勾配降下がトレーニング損失をゼロにすることを示した。
データが一定のクラスタと分離条件を満たし、ネットワークが十分に広い場合、勾配降下の一段階が、最初の結果が適用されるほど損失を十分に減少させることを示す。
論文 参考訳(メタデータ) (2020-12-04T05:16:51Z) - A Study of Gradient Variance in Deep Learning [56.437755740715396]
階層化サンプリングによる平均ミニバッチ勾配のばらつきを最小化する手法であるグラディエントクラスタリングを導入する。
我々は、一般的なディープラーニングベンチマークの勾配分散を測定し、一般的な仮定に反して、トレーニング中に勾配分散が増加することを観察する。
論文 参考訳(メタデータ) (2020-07-09T03:23:10Z) - DivideMix: Learning with Noisy Labels as Semi-supervised Learning [111.03364864022261]
ノイズラベルを学習するためのフレームワークであるDivideMixを提案する。
複数のベンチマークデータセットの実験は、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-02-18T06:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。