論文の概要: Memorization Through the Lens of Curvature of Loss Function Around
Samples
- arxiv url: http://arxiv.org/abs/2307.05831v2
- Date: Mon, 2 Oct 2023 03:50:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 13:42:19.178432
- Title: Memorization Through the Lens of Curvature of Loss Function Around
Samples
- Title(参考訳): サンプル周辺における損失関数の曲率レンズによる記憶
- Authors: Isha Garg, Deepak Ravikumar and Kaushik Roy
- Abstract要約: そこで本研究では,各トレーニング試料の曲率を,トレーニングエポックよりも平均的に算出し,サンプルの記憶の指標として用いることを提案する。
まず、高い曲率のサンプルは、長い尾、ラベルのずれ、あるいは矛盾するサンプルと視覚的に対応していることを示します。
この分析は、私たちの知る限り、CIFAR100とImageNetデータセットの新たな障害モードを見つけるのに役立ちます。
- 参考スコア(独自算出の注目度): 10.028765645749338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks are over-parameterized and easily overfit the datasets
they train on. In the extreme case, it has been shown that these networks can
memorize a training set with fully randomized labels. We propose using the
curvature of loss function around each training sample, averaged over training
epochs, as a measure of memorization of the sample. We use this metric to study
the generalization versus memorization properties of different samples in
popular image datasets and show that it captures memorization statistics well,
both qualitatively and quantitatively. We first show that the high curvature
samples visually correspond to long-tailed, mislabeled, or conflicting samples,
those that are most likely to be memorized. This analysis helps us find, to the
best of our knowledge, a novel failure mode on the CIFAR100 and ImageNet
datasets: that of duplicated images with differing labels. Quantitatively, we
corroborate the validity of our scores via two methods. First, we validate our
scores against an independent and comprehensively calculated baseline, by
showing high cosine similarity with the memorization scores released by Feldman
and Zhang (2020). Second, we inject corrupted samples which are memorized by
the network, and show that these are learned with high curvature. To this end,
we synthetically mislabel a random subset of the dataset. We overfit a network
to it and show that sorting by curvature yields high AUROC values for
identifying the corrupted samples. An added advantage of our method is that it
is scalable, as it requires training only a single network as opposed to the
thousands trained by the baseline, while capturing the aforementioned failure
mode that the baseline fails to identify.
- Abstract(参考訳): ディープニューラルネットワークは過度にパラメータ化され、トレーニングするデータセットに簡単に適合する。
極端な場合、これらのネットワークは完全にランダム化されたラベルでトレーニングセットを記憶できることが示されている。
そこで本研究では,各サンプルの記憶の指標として,トレーニング期間の平均値である各サンプルの損失関数の曲率を用いることを提案する。
この測定値を用いて,一般的な画像データセットにおける異なるサンプルの一般化と記憶特性を調査し,質的および定量的に記憶統計をよく捉えていることを示す。
まず、高い曲率のサンプルは、長い尾、ラベルのずれ、あるいは矛盾するサンプルと視覚的に対応していることを示します。
この分析は、私たちの知る限り、CIFAR100とImageNetデータセットの新たな障害モードを見つけるのに役立ちます。
定量的に2つの方法を用いてスコアの妥当性を相関づける。
まず,feldman と zhang (2020) がリリースした記憶スコアと高いコサイン類似性を示すことにより,独立かつ包括的に計算されたベースラインに対してスコアを検証する。
次に,ネットワークによって記憶された劣化したサンプルを注入し,高い曲率で学習することを示す。
この目的のために、データセットのランダムなサブセットを合成的に誤ラベルする。
ネットワークを重畳し、曲率によるソートは、破損したサンプルを特定するために高いAUROC値が得られることを示す。
我々の方法の利点は、ベースラインによって訓練された数千のネットワークに対して、単一のネットワークのみをトレーニングすると同時に、ベースラインが識別できない前述の障害モードをキャプチャすることである。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Mitigating Noisy Supervision Using Synthetic Samples with Soft Labels [13.314778587751588]
ノイズラベルは、特にクラウドソーシングやWeb検索から派生した大規模データセットにおいて、現実世界のデータセットにおいてユビキタスである。
トレーニング中にノイズの多いラベルを過度に適合させる傾向にあるため、ノイズの多いデータセットでディープニューラルネットワークをトレーニングすることは難しい。
ノイズラベルの影響を軽減するために,新しい合成サンプルを用いてモデルを訓練するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-22T04:49:39Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - DiscrimLoss: A Universal Loss for Hard Samples and Incorrect Samples
Discrimination [28.599571524763785]
ラベルノイズ(すなわち不正なデータ)が与えられた場合、ディープニューラルネットワークはラベルノイズとモデル性能を徐々に記憶する。
この問題を解消するために,カリキュラム学習を提案し,学習サンプルを有意義な順序で順序付けすることで,モデル性能と一般化を向上させる。
論文 参考訳(メタデータ) (2022-08-21T13:38:55Z) - Compare learning: bi-attention network for few-shot learning [6.559037166322981]
距離学習と呼ばれる数ショットの学習手法の1つは、画像のペアが同じカテゴリに属しているかどうかを判断するために、まず遠距離計量を学習することで、この課題に対処する。
本稿では, インスタンスの埋め込みの類似性を正確に, グローバルかつ効率的に測定できる, Bi-attention Network という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T07:39:10Z) - An analysis of over-sampling labeled data in semi-supervised learning
with FixMatch [66.34968300128631]
ほとんどの半教師付き学習手法は、ミニバッチを訓練する際にラベルをオーバーサンプルする。
本稿では,この実践が学習と方法を改善するかどうかを考察する。
ラベル付けの有無に関わらず、トレーニングデータから各ミニバッチを均一にサンプリングする別の設定と比較する。
論文 参考訳(メタデータ) (2022-01-03T12:22:26Z) - Delving into Sample Loss Curve to Embrace Noisy and Imbalanced Data [17.7825114228313]
破損したラベルとクラス不均衡は、実際に収集されたトレーニングデータでよく見られる。
既存のアプローチは、サンプルの再重み付け戦略を採用することで、これらの問題を緩和します。
しかし、ラベルが破損したサンプルと、訓練データに一般的に共存する尾のクラスは偏りがあった。
論文 参考訳(メタデータ) (2021-12-30T09:20:07Z) - Salvage Reusable Samples from Noisy Data for Robust Learning [70.48919625304]
本稿では,Web画像を用いた深部FGモデルのトレーニングにおいて,ラベルノイズに対処するための再利用可能なサンプル選択と修正手法を提案する。
私たちのキーとなるアイデアは、再利用可能なサンプルの追加と修正を行い、それらをクリーンな例とともに活用してネットワークを更新することです。
論文 参考訳(メタデータ) (2020-08-06T02:07:21Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。