論文の概要: SelfClean: A Self-Supervised Data Cleaning Strategy
- arxiv url: http://arxiv.org/abs/2305.17048v2
- Date: Fri, 29 Sep 2023 10:35:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 18:37:46.158501
- Title: SelfClean: A Self-Supervised Data Cleaning Strategy
- Title(参考訳): SelfClean: 自己監視型のデータクリーニング戦略
- Authors: Fabian Gr\"oger, Simone Lionetti, Philippe Gottfrois, Alvaro
Gonzalez-Jimenez, Ludovic Amruthalingam, Labelling Consortium, Matthew Groh,
Alexander A. Navarini, Marc Pouly
- Abstract要約: コンピュータビジョンのためのほとんどのベンチマークデータセットは、無関係な画像、ほぼ重複、ラベルエラーを含んでいる。
これは、一般的にデータセットが小さく、利害関係が高く、アノテーションプロセスが高価でエラーを起こしやすい、医学におけるコンピュータビジョンにおいて特に深刻な関心事である。
本稿では,自己スーパービジョンで学習した潜在空間を利用した画像データセットの整理手法であるSelfCleanを提案する。
- 参考スコア(独自算出の注目度): 36.884474720427896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most benchmark datasets for computer vision contain irrelevant images, near
duplicates, and label errors. Consequently, model performance on these
benchmarks may not be an accurate estimate of generalization capabilities. This
is a particularly acute concern in computer vision for medicine where datasets
are typically small, stakes are high, and annotation processes are expensive
and error-prone. In this paper we propose SelfClean, a general procedure to
clean up image datasets exploiting a latent space learned with
self-supervision. By relying on self-supervised learning, our approach focuses
on intrinsic properties of the data and avoids annotation biases. We formulate
dataset cleaning as either a set of ranking problems, which significantly
reduce human annotation effort, or a set of scoring problems, which enable
fully automated decisions based on score distributions. We demonstrate that
SelfClean achieves state-of-the-art performance in detecting irrelevant images,
near duplicates, and label errors within popular computer vision benchmarks,
retrieving both injected synthetic noise and natural contamination. In
addition, we apply our method to multiple image datasets and confirm an
improvement in evaluation reliability.
- Abstract(参考訳): コンピュータビジョンのためのベンチマークデータセットの多くは、無関係の画像、ほぼ重複画像、ラベルエラーを含む。
したがって、これらのベンチマークのモデル性能は、一般化能力の正確な推定にはならないかもしれない。
これは、一般的にデータセットが小さく、利害関係が高く、アノテーションプロセスが高価でエラーを起こしやすい医学におけるコンピュータビジョンにおいて特に深刻な関心事である。
本稿では,自己スーパービジョンで学習した潜在空間を利用した画像データセットのクリーニング手法であるselfcleanを提案する。
自己教師付き学習を頼りにすることで,データ固有の特性に着目し,アノテーションバイアスを回避する。
データセットのクリーニングを,人間の注記労力を大幅に削減するランキング問題の組か,スコア分布に基づく完全な自動決定を可能にするスコア問題の集合として定式化する。
提案手法は,一般的なコンピュータビジョンベンチマークにおいて,無関係な画像,ほぼ重複画像,ラベルエラーを検知し,インジェクトされた合成ノイズと自然汚染の両方を検索することで,最先端の性能を実現することを実証する。
さらに,本手法を複数の画像データセットに適用し,評価信頼性の向上を確認した。
関連論文リスト
- Automated Classification of Model Errors on ImageNet [7.455546102930913]
モデル選択がエラー分布にどのように影響するかを研究するための自動エラー分類フレームワークを提案する。
我々は、900以上のモデルのエラー分布を網羅的に評価するために、我々のフレームワークを使用します。
特に、重大エラーの一部は、モデルの性能を過小評価しているにもかかわらず、重要なパフォーマンス指標であることを示すトップ1の精度で大幅に低下する。
論文 参考訳(メタデータ) (2023-11-13T20:41:39Z) - Estimating label quality and errors in semantic segmentation data via
any model [19.84626033109009]
ラベル品質を評価する手法について検討し、最も低いスコアのイメージを正しくラベル付けする可能性が低いことを示す。
これにより、高品質なトレーニング/評価データセットを保証するために、レビューするデータを優先順位付けすることが可能になる。
論文 参考訳(メタデータ) (2023-07-11T07:29:09Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Benchmarking the Robustness of Deep Neural Networks to Common
Corruptions in Digital Pathology [11.398235052118608]
このベンチマークは、腐敗した病理画像に対して、ディープニューラルネットワークがどのように機能するかを評価するために確立されている。
2つの分類と1つのランキングのメトリクスは、汚職下での予測と信頼性のパフォーマンスを評価するために設計されている。
論文 参考訳(メタデータ) (2022-06-30T01:53:46Z) - Incorporating Semi-Supervised and Positive-Unlabeled Learning for
Boosting Full Reference Image Quality Assessment [73.61888777504377]
フル参照(FR)画像品質評価(IQA)は、その知覚的差異をプリズム品質基準で測定することにより、歪み画像の視覚的品質を評価する。
ラベルなしデータは、画像劣化または復元プロセスから容易に収集することができ、ラベルなしのトレーニングデータを利用してFR-IQA性能を高めることを奨励する。
本稿では, 半教師付き, 正の未ラベル学習(PU)を用いて, ラベルなしデータを活用し, オフレーヤの悪影響を軽減することを提案する。
論文 参考訳(メタデータ) (2022-04-19T09:10:06Z) - Revisiting Consistency Regularization for Semi-supervised Change
Detection in Remote Sensing Images [60.89777029184023]
教師付きクロスエントロピー(CE)損失に加えて、教師なしCD損失を定式化する半教師付きCDモデルを提案する。
2つの公開CDデータセットを用いて実験を行った結果,提案手法は教師付きCDの性能に近づきやすいことがわかった。
論文 参考訳(メタデータ) (2022-04-18T17:59:01Z) - Understanding out-of-distribution accuracies through quantifying
difficulty of test samples [10.266928164137635]
既存の研究によると、現代のニューラルネットワークは、分布内データセット(ID)において顕著な一般化性能を達成するが、分布外データセット(OOD)では精度が著しく低下する。
トレーニングデータセットとモデルの相互作用に依存するテスト画像(IDまたはOOD)の難易度を定量化する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-28T21:13:41Z) - A new baseline for retinal vessel segmentation: Numerical identification
and correction of methodological inconsistencies affecting 100+ papers [0.0]
得られた性能スコアのコヒーレンスに関する詳細な数値解析を行った。
視野の使用に関する報告結果に矛盾が認められた。
これまでに達成された最高精度はFoV領域の0.9582であり、これは人間のアノテーションよりも1%高い。
論文 参考訳(メタデータ) (2021-11-06T11:09:11Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。