論文の概要: Identifying Mislabeled Images in Supervised Learning Utilizing
Autoencoder
- arxiv url: http://arxiv.org/abs/2011.03667v2
- Date: Mon, 18 Jan 2021 22:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 22:27:06.624845
- Title: Identifying Mislabeled Images in Supervised Learning Utilizing
Autoencoder
- Title(参考訳): オートエンコーダを用いた教師付き学習における誤ラベル画像の同定
- Authors: Yunhao Yang, Andrew Whinston
- Abstract要約: 画像分類において、不正確なラベルは、分類モデルも不正確なものとなる可能性がある。
本稿では,分類ネットワークをトレーニングする前に,教師なしの手法をトレーニングデータに適用する。
このアルゴリズムは実験データセットの67%以上の不正ラベル付きデータを検出および削除することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised learning is based on the assumption that the ground truth in the
training data is accurate. However, this may not be guaranteed in real-world
settings. Inaccurate training data will result in some unexpected predictions.
In image classification, incorrect labels may cause the classification model to
be inaccurate as well. In this paper, I am going to apply unsupervised
techniques to the training data before training the classification network. A
convolutional autoencoder is applied to encode and reconstruct images. The
encoder will project the image data on to latent space. In the latent space,
image features are preserved in a lower dimension. The assumption is that data
samples with similar features are likely to have the same label. Noised samples
can be classified in the latent space by the Density-Base Scan (DBSCAN)
clustering algorithm. These incorrectly labeled data are visualized as outliers
in the latent space. Therefore, the outliers identified by the DBSCAN algorithm
can be classified as incorrectly labeled samples. After the outliers are
detected, all the outliers are treated as mislabeled data samples and removed
from the dataset. Thus the training data can be directly used in training the
supervised learning network. The algorithm can detect and remove above 67\% of
mislabeled data in the experimental dataset.
- Abstract(参考訳): 教師付き学習は、トレーニングデータの基底真理が正確であるという仮定に基づいている。
しかし、これは現実世界の設定では保証されない。
不正確なトレーニングデータは、予想外の予測をもたらす。
画像分類では、不正確なラベルによって分類モデルも不正確になる可能性がある。
本稿では,分類ネットワークを訓練する前に,教師なしの手法をトレーニングデータに適用する。
画像のエンコードおよび再構成に畳み込みオートエンコーダを適用する。
エンコーダは画像データを潜在空間に投影する。
潜在空間では、画像の特徴は低い次元で保存される。
同様の特徴を持つデータサンプルは、同じラベルを持つ可能性が高いと仮定する。
ノイズサンプルは、密度ベーススキャン(DBSCAN)クラスタリングアルゴリズムによって潜在空間に分類することができる。
これらの不正確なラベル付きデータは潜在空間の異常値として可視化される。
そのため、DBSCANアルゴリズムで同定された外れ値は、誤ってラベル付けされたサンプルに分類することができる。
外れ値が検出されると、すべての外れ値が誤ってラベル付けされたデータサンプルとして扱われ、データセットから削除される。
これにより、教師付き学習ネットワークのトレーニングにトレーニングデータを直接使用できる。
このアルゴリズムは、実験データセットの67%以上の不正ラベル付きデータを検出および削除することができる。
関連論文リスト
- Are labels informative in semi-supervised learning? -- Estimating and
leveraging the missing-data mechanism [4.675583319625962]
半教師付き学習は、ラベルのないデータを利用して機械学習モデルを改善するための強力な技術である。
これは、あるクラスが他のクラスよりもラベル付けされる可能性が高い場合に発生する、情報的ラベルの存在に影響される可能性がある。
本稿では,データ不足のメカニズムを推定し,逆確率重み付けを用いてSSLアルゴリズムを劣化させることにより,この問題に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-15T09:18:46Z) - Improving Semi-supervised Deep Learning by using Automatic Thresholding
to Deal with Out of Distribution Data for COVID-19 Detection using Chest
X-ray Images [0.0]
ラベルなしデータセットにおける分布外データをフィルタリングする自動しきい値抽出法を提案する。
胸部X線画像を用いた新型コロナウイルス検出装置の訓練において,2つの簡単な自動しきい値設定法を検証した。
論文 参考訳(メタデータ) (2022-11-03T20:56:45Z) - CTRL: Clustering Training Losses for Label Error Detection [4.49681473359251]
教師付き機械学習では、正確なラベルの使用は高い精度を保証するために極めて重要である。
本稿では,ラベル誤り検出のための新しいフレームワークClustering TRaining Lossesを提案する。
モデルが異なる方法でクリーンでノイズの多いラベルを学習する観察に基づいて、ラベルエラーを2つのステップで検出する。
論文 参考訳(メタデータ) (2022-08-17T18:09:19Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Self-Supervised Learning as a Means To Reduce the Need for Labeled Data
in Medical Image Analysis [64.4093648042484]
胸部X線画像のデータセットとバウンディングボックスラベルを用いて,13種類の異常の分類を行った。
ラベル付きデータの平均精度と精度を60%に抑えることで,完全教師付きモデルと同等の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-06-01T09:20:30Z) - Incorporating Semi-Supervised and Positive-Unlabeled Learning for
Boosting Full Reference Image Quality Assessment [73.61888777504377]
フル参照(FR)画像品質評価(IQA)は、その知覚的差異をプリズム品質基準で測定することにより、歪み画像の視覚的品質を評価する。
ラベルなしデータは、画像劣化または復元プロセスから容易に収集することができ、ラベルなしのトレーニングデータを利用してFR-IQA性能を高めることを奨励する。
本稿では, 半教師付き, 正の未ラベル学習(PU)を用いて, ラベルなしデータを活用し, オフレーヤの悪影響を軽減することを提案する。
論文 参考訳(メタデータ) (2022-04-19T09:10:06Z) - Instance Correction for Learning with Open-set Noisy Labels [145.06552420999986]
オープンセットノイズラベルの処理にはサンプル選択方式を用いる。
廃棄されたデータは間違ったラベルで書かれており、トレーニングには参加していない。
廃棄されたデータのインスタンスを変更して、廃棄されたデータの予測をラベルに一致させる。
論文 参考訳(メタデータ) (2021-06-01T13:05:55Z) - Sample Selection with Uncertainty of Losses for Learning with Noisy
Labels [145.06552420999986]
ノイズの多いラベルで学習する際、サンプル選択アプローチは非常に人気があり、小さなロスデータをトレーニング中に正しくラベル付けされているとみなす。
しかし、ノイズラベルでトレーニングされたモデルに基づいて、損失をオンザフライで発生させるため、大容量のデータはおそらく正しくないが、確実に誤りではない。
本稿では,損失点推定の代わりに間隔推定を採用することにより,損失の不確実性を取り入れる。
論文 参考訳(メタデータ) (2021-06-01T12:53:53Z) - Outlier Detection through Null Space Analysis of Neural Networks [3.220347094114561]
我々は、ヌル空間の概念を用いて、外れ値検出法を直接、分類に使用されるニューラルネットワークに統合する。
ニューラルネットワークのNull Space Analysis(NuSA)と呼ばれるこの手法は、データがネットワークを通過するときのヌル空間投影の大きさを計算し、制御する。
その結果、NuSAでトレーニングされたネットワークは、分類性能を維持しつつ、一般的に使用される外れ値検出アルゴリズムと同様の速度で外れ値を検出することができることが示された。
論文 参考訳(メタデータ) (2020-07-02T17:17:21Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。