Fugu-MT 論文翻訳(概要): SelfClean: A Self-Supervised Data Cleaning Strategy

論文の概要: SelfClean: A Self-Supervised Data Cleaning Strategy

arxiv url: http://arxiv.org/abs/2305.17048v1
Date: Fri, 26 May 2023 15:57:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-29 13:36:27.457087
Title: SelfClean: A Self-Supervised Data Cleaning Strategy
Title（参考訳）: SelfClean: 自己監視型のデータクリーニング戦略
Authors: Fabian Gr\"oger, Simone Lionetti, Philippe Gottfrois, Alvaro Gonzalez-Jimenez, Ludovic Amruthalingam, Labelling Consortium, Matthew Groh, Alexander A. Navarini, Marc Pouly
Abstract要約: 最も一般的に使用されるコンピュータビジョン用のベンチマークデータセットは、無関係な画像、ほぼ重複、ラベルエラーを含む。これは、一般的にデータセットが小さく、利害関係が高く、アノテーションプロセスが高価でエラーを起こしやすい、医学におけるコンピュータビジョンにおいて特に深刻な関心事である。本稿では,自己スーパービジョンで学習した潜在空間を利用した画像データセットの整理手法であるSelfCleanを提案する。
参考スコア（独自算出の注目度）: 50.38701068476655
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most commonly used benchmark datasets for computer vision contain irrelevant images, near duplicates, and label errors. Consequently, model performance on these benchmarks may not be an accurate estimate of generalization ability. This is a particularly acute concern in computer vision for medicine where datasets are typically small, stakes are high, and annotation processes are expensive and error-prone. In this paper, we propose SelfClean, a general procedure to clean up image datasets exploiting a latent space learned with self-supervision. By relying on self-supervised learning, our approach focuses on intrinsic properties of the data and avoids annotation biases. We formulate dataset cleaning as either a set of ranking problems, where human experts can make decisions with significantly reduced effort, or a set of scoring problems, where decisions can be fully automated based on score distributions. We compare SelfClean against other algorithms on common computer vision benchmarks enhanced with synthetic noise and demonstrate state-of-the-art performance on detecting irrelevant images, near duplicates, and label errors. In addition, we apply our method to multiple image datasets and confirm an improvement in evaluation reliability.
Abstract（参考訳）: 最も一般的に使用されるベンチマークデータセットは、無関係の画像、ほぼ重複画像、ラベルエラーを含む。したがって、これらのベンチマークでのモデル性能は、一般化能力の正確な推定ではないかもしれない。これは、一般的にデータセットが小さく、利害関係が高く、アノテーションプロセスが高価でエラーを起こしやすい医学におけるコンピュータビジョンにおいて特に深刻な関心事である。本稿では,自己スーパービジョンで学習した潜在空間を利用した画像データセットのクリーニング手法であるselfcleanを提案する。自己教師付き学習を頼りにすることで,データ固有の特性に着目し,アノテーションバイアスを回避する。我々は、データセットのクリーニングを、人間の専門家が大幅に少ない労力で意思決定できるランキング問題、あるいはスコア分布に基づいて決定を完全に自動化できるスコア問題のいずれかとして定式化する。合成ノイズで拡張された一般的なコンピュータビジョンベンチマークでは、他のアルゴリズムと比較し、無関係な画像、近傍の重複、ラベルエラーの検出における最先端のパフォーマンスを示す。さらに,本手法を複数の画像データセットに適用し,評価信頼性の向上を確認した。

関連論文リスト

GRASP-PsONet: Gradient-based Removal of Spurious Patterns for PsOriasis Severity Classification [0.0]
本稿では,突発的な相関を導入し,問題のあるトレーニングイメージを自動的にフラグするフレームワークを提案する。フラグ付き画像の8.2%は、保持されたテストセットでモデルAUC-ROCを5%(85%から90%)改善する。 2人の皮膚科医によって評価された訓練データのサブセットに適用した場合、この方法は、レイター間不一致の90%以上を識別する。
論文参考訳（メタデータ） (2025-06-27T03:42:09Z)
When VLMs Meet Image Classification: Test Sets Renovation via Missing Label Identification [11.49089004019603]
本稿では,画像分類テストセットにおけるノイズラベルと欠落ラベルの両方に対処するため,REVEALという包括的フレームワークを提案する。 REVEALは潜在的なノイズのあるラベルや欠落を検出し、様々な方法から予測を集約し、信頼性インフォームド予測とコンセンサスに基づくフィルタリングによってラベルの精度を向上する。提案手法は,公開データセットから欠落したラベルを効果的に明らかにし,ソフトラベルによる結果に可能性が示唆された。
論文参考訳（メタデータ） (2025-05-22T02:47:36Z)
CleanPatrick: A Benchmark for Image Data Cleaning [31.45060372924389]
CleanPatrickは、画像領域でデータクリーニングを行うための最初の大規模ベンチマークである。 933名の医療従事者から496,377名のバイナリアノテーションを収集した。項目応答理論にインスパイアされたアグリゲーションモデルを使用し、続いて専門家によるレビューを行い、高品質な基底真理を導出する。
論文参考訳（メタデータ） (2025-05-16T09:29:41Z)
DynClean: Training Dynamics-based Label Cleaning for Distantly-Supervised Named Entity Recognition [49.54155332262579]
本稿では,トレーニングの進行に伴うモデルの挙動を生かした,トレーニングダイナミクスに基づくラベルクリーニング手法を提案する。また,遠隔ラベルの誤りを見つけるための自動しきい値推定手法も導入する。提案手法は,4つのデータセットにまたがる高度なDS-NER手法よりも優れている。
論文参考訳（メタデータ） (2025-04-06T20:54:42Z)
Re-assessing ImageNet: How aligned is its single-label assumption with its multi-label nature? [1.4828022319975973]
我々は、ImageNetとその変種であるImageNetV2上で、事前訓練された最先端ディープニューラルネットワーク(DNN)モデルの有効性を分析する。以上の結果から,これらの報告された減少は,十分な注意が払われていないデータセットの特徴に起因することが示唆された。この結果は,ベンチマーク中のImageNetデータセットのマルチラベル性を考慮することの重要性を浮き彫りにした。
論文参考訳（メタデータ） (2024-12-24T12:55:31Z)
Automated Classification of Model Errors on ImageNet [7.455546102930913]
モデル選択がエラー分布にどのように影響するかを研究するための自動エラー分類フレームワークを提案する。我々は、900以上のモデルのエラー分布を網羅的に評価するために、我々のフレームワークを使用します。特に、重大エラーの一部は、モデルの性能を過小評価しているにもかかわらず、重要なパフォーマンス指標であることを示すトップ1の精度で大幅に低下する。
論文参考訳（メタデータ） (2023-11-13T20:41:39Z)
Estimating label quality and errors in semantic segmentation data via any model [19.84626033109009]
ラベル品質を評価する手法について検討し、最も低いスコアのイメージを正しくラベル付けする可能性が低いことを示す。これにより、高品質なトレーニング/評価データセットを保証するために、レビューするデータを優先順位付けすることが可能になる。
論文参考訳（メタデータ） (2023-07-11T07:29:09Z)
Discover, Explanation, Improvement: An Automatic Slice Detection Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文参考訳（メタデータ） (2022-11-08T19:00:00Z)
Benchmarking the Robustness of Deep Neural Networks to Common Corruptions in Digital Pathology [11.398235052118608]
このベンチマークは、腐敗した病理画像に対して、ディープニューラルネットワークがどのように機能するかを評価するために確立されている。 2つの分類と1つのランキングのメトリクスは、汚職下での予測と信頼性のパフォーマンスを評価するために設計されている。
論文参考訳（メタデータ） (2022-06-30T01:53:46Z)
Incorporating Semi-Supervised and Positive-Unlabeled Learning for Boosting Full Reference Image Quality Assessment [73.61888777504377]
フル参照(FR)画像品質評価(IQA)は、その知覚的差異をプリズム品質基準で測定することにより、歪み画像の視覚的品質を評価する。ラベルなしデータは、画像劣化または復元プロセスから容易に収集することができ、ラベルなしのトレーニングデータを利用してFR-IQA性能を高めることを奨励する。本稿では, 半教師付き, 正の未ラベル学習(PU)を用いて, ラベルなしデータを活用し, オフレーヤの悪影響を軽減することを提案する。
論文参考訳（メタデータ） (2022-04-19T09:10:06Z)
Revisiting Consistency Regularization for Semi-supervised Change Detection in Remote Sensing Images [60.89777029184023]
教師付きクロスエントロピー(CE)損失に加えて、教師なしCD損失を定式化する半教師付きCDモデルを提案する。 2つの公開CDデータセットを用いて実験を行った結果,提案手法は教師付きCDの性能に近づきやすいことがわかった。
論文参考訳（メタデータ） (2022-04-18T17:59:01Z)
Understanding out-of-distribution accuracies through quantifying difficulty of test samples [10.266928164137635]
既存の研究によると、現代のニューラルネットワークは、分布内データセット(ID)において顕著な一般化性能を達成するが、分布外データセット(OOD)では精度が著しく低下する。トレーニングデータセットとモデルの相互作用に依存するテスト画像(IDまたはOOD)の難易度を定量化する新しい指標を提案する。
論文参考訳（メタデータ） (2022-03-28T21:13:41Z)
A new baseline for retinal vessel segmentation: Numerical identification and correction of methodological inconsistencies affecting 100+ papers [0.0]
得られた性能スコアのコヒーレンスに関する詳細な数値解析を行った。視野の使用に関する報告結果に矛盾が認められた。これまでに達成された最高精度はFoV領域の0.9582であり、これは人間のアノテーションよりも1%高い。
論文参考訳（メタデータ） (2021-11-06T11:09:11Z)
Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文参考訳（メタデータ） (2021-06-11T01:36:08Z)
Towards Good Practices for Efficiently Annotating Large-Scale Image Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。 ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文参考訳（メタデータ） (2021-04-26T16:29:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。