論文の概要: SelfClean: A Self-Supervised Data Cleaning Strategy
- arxiv url: http://arxiv.org/abs/2305.17048v1
- Date: Fri, 26 May 2023 15:57:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 13:36:27.457087
- Title: SelfClean: A Self-Supervised Data Cleaning Strategy
- Title(参考訳): SelfClean: 自己監視型のデータクリーニング戦略
- Authors: Fabian Gr\"oger, Simone Lionetti, Philippe Gottfrois, Alvaro
Gonzalez-Jimenez, Ludovic Amruthalingam, Labelling Consortium, Matthew Groh,
Alexander A. Navarini, Marc Pouly
- Abstract要約: 最も一般的に使用されるコンピュータビジョン用のベンチマークデータセットは、無関係な画像、ほぼ重複、ラベルエラーを含む。
これは、一般的にデータセットが小さく、利害関係が高く、アノテーションプロセスが高価でエラーを起こしやすい、医学におけるコンピュータビジョンにおいて特に深刻な関心事である。
本稿では,自己スーパービジョンで学習した潜在空間を利用した画像データセットの整理手法であるSelfCleanを提案する。
- 参考スコア(独自算出の注目度): 50.38701068476655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most commonly used benchmark datasets for computer vision contain irrelevant
images, near duplicates, and label errors. Consequently, model performance on
these benchmarks may not be an accurate estimate of generalization ability.
This is a particularly acute concern in computer vision for medicine where
datasets are typically small, stakes are high, and annotation processes are
expensive and error-prone. In this paper, we propose SelfClean, a general
procedure to clean up image datasets exploiting a latent space learned with
self-supervision. By relying on self-supervised learning, our approach focuses
on intrinsic properties of the data and avoids annotation biases. We formulate
dataset cleaning as either a set of ranking problems, where human experts can
make decisions with significantly reduced effort, or a set of scoring problems,
where decisions can be fully automated based on score distributions. We compare
SelfClean against other algorithms on common computer vision benchmarks
enhanced with synthetic noise and demonstrate state-of-the-art performance on
detecting irrelevant images, near duplicates, and label errors. In addition, we
apply our method to multiple image datasets and confirm an improvement in
evaluation reliability.
- Abstract(参考訳): 最も一般的に使用されるベンチマークデータセットは、無関係の画像、ほぼ重複画像、ラベルエラーを含む。
したがって、これらのベンチマークでのモデル性能は、一般化能力の正確な推定ではないかもしれない。
これは、一般的にデータセットが小さく、利害関係が高く、アノテーションプロセスが高価でエラーを起こしやすい医学におけるコンピュータビジョンにおいて特に深刻な関心事である。
本稿では,自己スーパービジョンで学習した潜在空間を利用した画像データセットのクリーニング手法であるselfcleanを提案する。
自己教師付き学習を頼りにすることで,データ固有の特性に着目し,アノテーションバイアスを回避する。
我々は、データセットのクリーニングを、人間の専門家が大幅に少ない労力で意思決定できるランキング問題、あるいはスコア分布に基づいて決定を完全に自動化できるスコア問題のいずれかとして定式化する。
合成ノイズで拡張された一般的なコンピュータビジョンベンチマークでは、他のアルゴリズムと比較し、無関係な画像、近傍の重複、ラベルエラーの検出における最先端のパフォーマンスを示す。
さらに,本手法を複数の画像データセットに適用し,評価信頼性の向上を確認した。
関連論文リスト
- An Empirical Study of Automated Mislabel Detection in Real World Vision
Datasets [3.123276402480922]
実世界のデータセットにラベルのずれのあるイメージを効果的に実装するための戦略を開発する。
アプローチを慎重に設計すると、クラス毎のパフォーマンスが最大8%向上する。
論文 参考訳(メタデータ) (2023-12-02T19:33:42Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - Estimating label quality and errors in semantic segmentation data via
any model [19.84626033109009]
ラベル品質を評価する手法について検討し、最も低いスコアのイメージを正しくラベル付けする可能性が低いことを示す。
これにより、高品質なトレーニング/評価データセットを保証するために、レビューするデータを優先順位付けすることが可能になる。
論文 参考訳(メタデータ) (2023-07-11T07:29:09Z) - Model Debiasing via Gradient-based Explanation on Representation [14.673988027271388]
本稿では,デリケートな属性やプロキシな属性に関して,デバイアスを行う新しいフェアネスフレームワークを提案する。
我々のフレームワークは、過去の最先端のアプローチよりも、構造化されていないデータセットと構造化されたデータセットの公平性と正確なトレードオフを達成しています。
論文 参考訳(メタデータ) (2023-05-20T11:57:57Z) - Localized Shortcut Removal [4.511561231517167]
保持されたテストデータのハイパフォーマンスは、モデルを一般化したり、意味のあるものを学ぶことを必ずしも示さない。
これはしばしば、機械学習のショートカットの存在が原因である。
我々は、逆向きに訓練されたレンズを用いて、画像中の非常に予測的だが意味的に無関係な手がかりを検出し、排除する。
論文 参考訳(メタデータ) (2022-11-24T13:05:33Z) - Self-Supervised Learning as a Means To Reduce the Need for Labeled Data
in Medical Image Analysis [64.4093648042484]
胸部X線画像のデータセットとバウンディングボックスラベルを用いて,13種類の異常の分類を行った。
ラベル付きデータの平均精度と精度を60%に抑えることで,完全教師付きモデルと同等の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-06-01T09:20:30Z) - Incorporating Semi-Supervised and Positive-Unlabeled Learning for
Boosting Full Reference Image Quality Assessment [73.61888777504377]
フル参照(FR)画像品質評価(IQA)は、その知覚的差異をプリズム品質基準で測定することにより、歪み画像の視覚的品質を評価する。
ラベルなしデータは、画像劣化または復元プロセスから容易に収集することができ、ラベルなしのトレーニングデータを利用してFR-IQA性能を高めることを奨励する。
本稿では, 半教師付き, 正の未ラベル学習(PU)を用いて, ラベルなしデータを活用し, オフレーヤの悪影響を軽減することを提案する。
論文 参考訳(メタデータ) (2022-04-19T09:10:06Z) - Active label cleaning: Improving dataset quality under resource
constraints [13.716577886649018]
ラベルノイズとして知られるデータアノテーションの欠陥は、機械学習モデルのトレーニングに有害である。
この研究は、再アノテーションのためのサンプルを優先順位付けするためのデータ駆動アプローチを提唱する。
評価されたラベルの正しさと各サンプルのラベル付け難易度に応じて格付けを行い,再現性を評価するためのシミュレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2021-09-01T19:03:57Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - Semi-Automatic Data Annotation guided by Feature Space Projection [117.9296191012968]
本稿では,適切な特徴空間投影と半教師付きラベル推定に基づく半自動データアノテーション手法を提案する。
MNISTデータセットとヒト腸内寄生虫の胎児不純物の有無による画像を用いて本手法の有効性を検証した。
この結果から,人間と機械の相補的能力を組み合わせた視覚分析ツールの付加価値が,より効果的な機械学習に有効であることが示唆された。
論文 参考訳(メタデータ) (2020-07-27T17:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。