論文の概要: Memorization Through the Lens of Curvature of Loss Function Around
Samples
- arxiv url: http://arxiv.org/abs/2307.05831v1
- Date: Tue, 11 Jul 2023 22:53:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 14:49:53.057226
- Title: Memorization Through the Lens of Curvature of Loss Function Around
Samples
- Title(参考訳): サンプル周辺における損失関数の曲率レンズによる記憶
- Authors: Isha Garg and Kaushik Roy
- Abstract要約: 一般的な画像データセットにおける異なるサンプルの一般化と記憶特性について検討する。
それらを取り巻く損失の最も高い曲線でサンプルを可視化し、これらが長い尾、ラベルの誤り、あるいは矛盾するサンプルと視覚的に対応していることを示します。
- 参考スコア(独自算出の注目度): 8.847574864259391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks are overparametrized and easily overfit the datasets they
train on. In the extreme case, it is shown that they can memorize a training
set with fully randomized labels. We propose using the curvature of loss
function around the training sample as a measure of its memorization, averaged
over all training epochs. We use this to study the generalization versus
memorization properties of different samples in popular image datasets. We
visualize samples with the highest curvature of loss around them, and show that
these visually correspond to long-tailed, mislabeled or conflicting samples.
This analysis helps us find a, to the best of our knowledge, novel failure
model on the CIFAR100 dataset, that of duplicated images with different labels.
We also synthetically mislabel a proportion of the dataset by randomly
corrupting the labels of a few samples, and show that sorting by curvature
yields high AUROC values for identifying the mislabeled samples.
- Abstract(参考訳): ニューラルネットワークは過度にパラメータ化され、トレーニングするデータセットに簡単に適合する。
極端な場合には、完全にランダム化されたラベルでトレーニングセットを記憶できることが示される。
そこで本研究では,トレーニングサンプル周辺における損失関数の曲率を,その記憶力の尺度として用いることを提案する。
これを用いて,一般的な画像データセットにおける異なるサンプルの一般化と記憶特性について検討する。
我々は,その周囲の損失率が最も高い試料を可視化し,これらが長尾,誤ラベル,あるいは矛盾する試料と視覚的に一致することを示す。
この分析は、私たちの知る限り、CIFAR100データセット上の新しい障害モデル、ラベルの異なる重複画像を見つけるのに役立ちます。
また,いくつかのサンプルのラベルをランダムに分解してデータセットの比率を合成的に誤ってラベル付けし,曲率によるソートによって高いオーロラ値が得られることを示した。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Mitigating Noisy Supervision Using Synthetic Samples with Soft Labels [13.314778587751588]
ノイズラベルは、特にクラウドソーシングやWeb検索から派生した大規模データセットにおいて、現実世界のデータセットにおいてユビキタスである。
トレーニング中にノイズの多いラベルを過度に適合させる傾向にあるため、ノイズの多いデータセットでディープニューラルネットワークをトレーニングすることは難しい。
ノイズラベルの影響を軽減するために,新しい合成サンプルを用いてモデルを訓練するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-22T04:49:39Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - DiscrimLoss: A Universal Loss for Hard Samples and Incorrect Samples
Discrimination [28.599571524763785]
ラベルノイズ(すなわち不正なデータ)が与えられた場合、ディープニューラルネットワークはラベルノイズとモデル性能を徐々に記憶する。
この問題を解消するために,カリキュラム学習を提案し,学習サンプルを有意義な順序で順序付けすることで,モデル性能と一般化を向上させる。
論文 参考訳(メタデータ) (2022-08-21T13:38:55Z) - Compare learning: bi-attention network for few-shot learning [6.559037166322981]
距離学習と呼ばれる数ショットの学習手法の1つは、画像のペアが同じカテゴリに属しているかどうかを判断するために、まず遠距離計量を学習することで、この課題に対処する。
本稿では, インスタンスの埋め込みの類似性を正確に, グローバルかつ効率的に測定できる, Bi-attention Network という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T07:39:10Z) - An analysis of over-sampling labeled data in semi-supervised learning
with FixMatch [66.34968300128631]
ほとんどの半教師付き学習手法は、ミニバッチを訓練する際にラベルをオーバーサンプルする。
本稿では,この実践が学習と方法を改善するかどうかを考察する。
ラベル付けの有無に関わらず、トレーニングデータから各ミニバッチを均一にサンプリングする別の設定と比較する。
論文 参考訳(メタデータ) (2022-01-03T12:22:26Z) - Delving into Sample Loss Curve to Embrace Noisy and Imbalanced Data [17.7825114228313]
破損したラベルとクラス不均衡は、実際に収集されたトレーニングデータでよく見られる。
既存のアプローチは、サンプルの再重み付け戦略を採用することで、これらの問題を緩和します。
しかし、ラベルが破損したサンプルと、訓練データに一般的に共存する尾のクラスは偏りがあった。
論文 参考訳(メタデータ) (2021-12-30T09:20:07Z) - Salvage Reusable Samples from Noisy Data for Robust Learning [70.48919625304]
本稿では,Web画像を用いた深部FGモデルのトレーニングにおいて,ラベルノイズに対処するための再利用可能なサンプル選択と修正手法を提案する。
私たちのキーとなるアイデアは、再利用可能なサンプルの追加と修正を行い、それらをクリーンな例とともに活用してネットワークを更新することです。
論文 参考訳(メタデータ) (2020-08-06T02:07:21Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。