論文の概要: Improving Generalization of Deep Fault Detection Models in the Presence
of Mislabeled Data
- arxiv url: http://arxiv.org/abs/2009.14606v1
- Date: Wed, 30 Sep 2020 12:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 22:41:45.432241
- Title: Improving Generalization of Deep Fault Detection Models in the Presence
of Mislabeled Data
- Title(参考訳): 誤りラベルデータの存在下での深部断層検出モデルの一般化
- Authors: Katharina Rombach, Gabriel Michau and Olga Fink
- Abstract要約: ラベルノイズを用いた頑健なトレーニングのための新しい2段階フレームワークを提案する。
最初のステップでは、仮説空間の更新に基づいて、外れ値(ラベルのつかないサンプルを含む)を識別する。
第2のステップでは、識別されたアウトレイラとデータ拡張技術に基づいて、トレーニングデータを修正するための異なるアプローチを提案する。
- 参考スコア(独自算出の注目度): 1.3535770763481902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mislabeled samples are ubiquitous in real-world datasets as rule-based or
expert labeling is usually based on incorrect assumptions or subject to biased
opinions. Neural networks can "memorize" these mislabeled samples and, as a
result, exhibit poor generalization. This poses a critical issue in fault
detection applications, where not only the training but also the validation
datasets are prone to contain mislabeled samples. In this work, we propose a
novel two-step framework for robust training with label noise. In the first
step, we identify outliers (including the mislabeled samples) based on the
update in the hypothesis space. In the second step, we propose different
approaches to modifying the training data based on the identified outliers and
a data augmentation technique. Contrary to previous approaches, we aim at
finding a robust solution that is suitable for real-world applications, such as
fault detection, where no clean, "noise-free" validation dataset is available.
Under an approximate assumption about the upper limit of the label noise, we
significantly improve the generalization ability of the model trained under
massive label noise.
- Abstract(参考訳): ミスラベルされたサンプルは現実のデータセットでユビキタスであり、ルールベースまたは専門家のラベル付けは通常、誤った仮定や偏見のある意見に基づく。
ニューラルネットワークはこれらのミスラベルされたサンプルを「記憶する」ことができ、結果として一般化が不十分である。
これは、トレーニングだけでなく、検証データセットが間違ったラベル付きサンプルを含む傾向にある、障害検出アプリケーションにおいて重大な問題を引き起こす。
本研究では,ラベル雑音を伴うロバストトレーニングのための新しい2段階フレームワークを提案する。
最初のステップでは、仮説空間の更新に基づいて外れ値(誤記されたサンプルを含む)を識別します。
第2のステップでは、識別された異常値とデータ拡張技術に基づいて、トレーニングデータを変更するための異なるアプローチを提案する。
従来のアプローチとは対照的に,クリーンで"ノイズフリー"なバリデーションデータセットが利用できない障害検出など,現実のアプリケーションに適した堅牢なソリューションを見つけることを目指している。
ラベルノイズの上限に関する近似的な仮定の下では,大規模ラベル雑音下で訓練されたモデルの一般化能力を大幅に向上する。
関連論文リスト
- Learning in the Wild: Towards Leveraging Unlabeled Data for Effectively
Tuning Pre-trained Code Models [38.7352992942213]
我々は,大規模な未ラベルデータセットを用いた事前学習型コードモデルを改善するために,HINTという新しいアプローチを提案する。
HINTには、HybrId擬似ラベル付きデータ選択とノイズ耐性トレーニングの2つの主要なモジュールが含まれている。
実験の結果、HINTはタスク固有の方法でラベル付けされていないデータをうまく活用できることがわかった。
論文 参考訳(メタデータ) (2024-01-02T06:39:00Z) - Robust Data Pruning under Label Noise via Maximizing Re-labeling
Accuracy [34.02350195269502]
我々は再ラベルでデータプルーニングの問題を定式化する。
そこで本研究では,すべてのトレーニング例の局所的信頼度を最大化する,新しいデータプルーニングアルゴリズムPrune4Relを提案する。
論文 参考訳(メタデータ) (2023-11-02T05:40:26Z) - Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。
誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。
ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-26T12:43:25Z) - Boosting Semi-Supervised Learning by bridging high and low-confidence
predictions [4.18804572788063]
Pseudo-labelingは半教師あり学習(SSL)において重要な技術である
ReFixMatchと呼ばれる新しい手法を提案し、これはトレーニング中にラベルなしのデータをすべて活用することを目的としている。
論文 参考訳(メタデータ) (2023-08-15T00:27:18Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Learning with Noisy labels via Self-supervised Adversarial Noisy Masking [33.87292143223425]
対向雑音マスキングと呼ばれる新しいトレーニング手法を提案する。
入力データとラベルを同時に調整し、ノイズの多いサンプルが過度に収まらないようにする。
合成および実世界のノイズデータセットの両方でテストされる。
論文 参考訳(メタデータ) (2023-02-14T03:13:26Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - Self-Supervised Noisy Label Learning for Source-Free Unsupervised Domain
Adaptation [87.60688582088194]
新規な自己監督雑音ラベル学習法を提案する。
本手法は最新の結果を容易に達成でき、他の手法を非常に大きなマージンで超えることができる。
論文 参考訳(メタデータ) (2021-02-23T10:51:45Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。