論文の概要: An Empirical Study of Automated Mislabel Detection in Real World Vision
Datasets
- arxiv url: http://arxiv.org/abs/2312.02200v1
- Date: Sat, 2 Dec 2023 19:33:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 18:36:34.666074
- Title: An Empirical Study of Automated Mislabel Detection in Real World Vision
Datasets
- Title(参考訳): 実世界ビジョンデータセットにおけるミスラベルの自動検出に関する実証的研究
- Authors: Maya Srikanth, Jeremy Irvin, Brian Wesley Hill, Felipe Godoy, Ishan
Sabane, Andrew Y. Ng
- Abstract要約: 実世界のデータセットにラベルのずれのあるイメージを効果的に実装するための戦略を開発する。
アプローチを慎重に設計すると、クラス毎のパフォーマンスが最大8%向上する。
- 参考スコア(独自算出の注目度): 3.123276402480922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Major advancements in computer vision can primarily be attributed to the use
of labeled datasets. However, acquiring labels for datasets often results in
errors which can harm model performance. Recent works have proposed methods to
automatically identify mislabeled images, but developing strategies to
effectively implement them in real world datasets has been sparsely explored.
Towards improved data-centric methods for cleaning real world vision datasets,
we first conduct more than 200 experiments carefully benchmarking recently
developed automated mislabel detection methods on multiple datasets under a
variety of synthetic and real noise settings with varying noise levels. We
compare these methods to a Simple and Efficient Mislabel Detector (SEMD) that
we craft, and find that SEMD performs similarly to or outperforms prior
mislabel detection approaches. We then apply SEMD to multiple real world
computer vision datasets and test how dataset size, mislabel removal strategy,
and mislabel removal amount further affect model performance after retraining
on the cleaned data. With careful design of the approach, we find that mislabel
removal leads per-class performance improvements of up to 8% of a retrained
classifier in smaller data regimes.
- Abstract(参考訳): コンピュータビジョンの大きな進歩は主にラベル付きデータセットの使用によるものである。
しかし、データセットのラベルを取得すると、しばしばモデルのパフォーマンスを損なうようなエラーが発生する。
近年, 誤ラベル画像を自動的に識別する手法が提案されているが, 実世界のデータセットに効果的に実装する手法の開発は少ない。
実世界の視覚データセットのクリーニングのためのデータセントリックな方法の改善に向けて,我々はまず200以上の実験を注意深く実施し,ノイズレベルが異なる様々な合成音と実音環境下で,最近開発された複数のデータセットにおけるミスラベルの自動検出手法を注意深くベンチマークした。
これらの手法を,我々が開発する簡易かつ効率的なミスラベル検出器 (semd) と比較し,semdが先行するミスラベル検出手法に類似し,より優れることを示す。
次に、SEMDを複数の実世界のコンピュータビジョンデータセットに適用し、データセットのサイズ、ラベルの削除戦略、ラベルの削除量が、クリーンデータの再トレーニング後のモデルパフォーマンスにどのように影響するかをテストする。
提案手法の注意深い設計により,より小規模なデータ構造において,クラス毎のパフォーマンスが最大8%向上することがわかった。
関連論文リスト
- Automatic Dataset Construction (ADC): Sample Collection, Data Curation, and Beyond [38.89457061559469]
本稿では,データセット作成をコストと高効率で自動化する革新的な手法を提案する。
我々は,ラベルの誤り検出,ノイズやバイアスのあるデータによる堅牢な学習など,既存の手法を組み込んだオープンソースソフトウェアを提供する。
ラベルノイズ検出、ラベルノイズ学習、クラス不均衡学習に焦点を当てた3つのベンチマークデータセットを設計する。
論文 参考訳(メタデータ) (2024-08-21T04:45:12Z) - Data Valuation with Gradient Similarity [1.997283751398032]
データ評価アルゴリズムは、与えられた予測タスクへの貢献または重要性に基づいて、データセット内の各サンプルの価値を定量化する。
DVGS(Data Valuation with Gradient similarity)と呼ばれる既存の手法に代わる単純な方法を提案する。
当社のアプローチでは,低品質なデータを迅速かつ正確に識別することが可能で,データクリーニング作業における専門家の知識や手作業による介入の必要性を低減できる。
論文 参考訳(メタデータ) (2024-05-13T22:10:00Z) - Fine tuning Pre trained Models for Robustness Under Noisy Labels [34.68018860186995]
トレーニングデータセットにノイズの多いラベルが存在することは、機械学習モデルのパフォーマンスに大きな影響を及ぼす可能性がある。
我々は、事前学習されたモデルの事前知識を頑健かつ効率的に伝達するTURNと呼ばれる新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-24T20:28:59Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Learning from Training Dynamics: Identifying Mislabeled Data Beyond
Manually Designed Features [43.41573458276422]
LSTMネットワークを例として,ノイズ検出を応用した新しい学習ベースソリューションを提案する。
提案手法は、合成ラベル雑音を用いたデータセットを用いて、教師あり方式でノイズ検出器を訓練する。
提案手法は, 各種データセットの誤ラベルサンプルを, さらなる適応を伴わずに, 精度良く検出できることが示唆された。
論文 参考訳(メタデータ) (2022-12-19T09:39:30Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Unsupervised Domain Adaptive Salient Object Detection Through
Uncertainty-Aware Pseudo-Label Learning [104.00026716576546]
そこで本研究では,手動のアノテーションを使わずに,自然に高いピクセルラベル品質を有する合成・クリーンなラベルから,サリエンスを学習することを提案する。
提案手法は,複数のベンチマークデータセット上で,既存の最先端の深層教師なしSOD法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-26T16:03:55Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z) - Towards Reducing Labeling Cost in Deep Object Detection [61.010693873330446]
本稿では,検知器の不確実性と頑健性の両方を考慮した,アクティブラーニングのための統一的なフレームワークを提案する。
提案手法は, 確率分布のドリフトを抑えながら, 極めて確実な予測を擬似ラベル化することができる。
論文 参考訳(メタデータ) (2021-06-22T16:53:09Z) - A Novel Perspective for Positive-Unlabeled Learning via Noisy Labels [49.990938653249415]
本研究では,初期疑似ラベルを雑音ラベルデータとして用いる非ラベルデータに割り当て,雑音ラベルデータを用いて深層ニューラルネットワークを訓練する手法を提案する。
実験の結果,提案手法は,いくつかのベンチマークデータセットにおいて,最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-03-08T11:46:02Z) - Out-Of-Bag Anomaly Detection [0.9449650062296822]
データ異常は、実世界のデータセットでユビキタスであり、機械学習(ML)システムに悪影響を及ぼす可能性がある。
本稿では,新しいモデルに基づく異常検出手法を提案し,その手法をアウト・オブ・バグ検出と呼ぶ。
本手法は,家庭評価のケーススタディを通じて,データ前処理のステップとして,MLシステムの精度と信頼性を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-09-20T06:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。