論文の概要: CleanPatrick: A Benchmark for Image Data Cleaning
- arxiv url: http://arxiv.org/abs/2505.11034v1
- Date: Fri, 16 May 2025 09:29:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.479118
- Title: CleanPatrick: A Benchmark for Image Data Cleaning
- Title(参考訳): CleanPatrick: イメージデータのクリーニングのためのベンチマーク
- Authors: Fabian Gröger, Simone Lionetti, Philippe Gottfrois, Alvaro Gonzalez-Jimenez, Ludovic Amruthalingam, Elisabeth Victoria Goessinger, Hanna Lindemann, Marie Bargiela, Marie Hofbauer, Omar Badri, Philipp Tschandl, Arash Koochek, Matthew Groh, Alexander A. Navarini, Marc Pouly,
- Abstract要約: CleanPatrickは、画像領域でデータクリーニングを行うための最初の大規模ベンチマークである。
933名の医療従事者から496,377名のバイナリアノテーションを収集した。
項目応答理論にインスパイアされたアグリゲーションモデルを使用し、続いて専門家によるレビューを行い、高品質な基底真理を導出する。
- 参考スコア(独自算出の注目度): 31.45060372924389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust machine learning depends on clean data, yet current image data cleaning benchmarks rely on synthetic noise or narrow human studies, limiting comparison and real-world relevance. We introduce CleanPatrick, the first large-scale benchmark for data cleaning in the image domain, built upon the publicly available Fitzpatrick17k dermatology dataset. We collect 496,377 binary annotations from 933 medical crowd workers, identify off-topic samples (4%), near-duplicates (21%), and label errors (22%), and employ an aggregation model inspired by item-response theory followed by expert review to derive high-quality ground truth. CleanPatrick formalizes issue detection as a ranking task and adopts typical ranking metrics mirroring real audit workflows. Benchmarking classical anomaly detectors, perceptual hashing, SSIM, Confident Learning, NoiseRank, and SelfClean, we find that, on CleanPatrick, self-supervised representations excel at near-duplicate detection, classical methods achieve competitive off-topic detection under constrained review budgets, and label-error detection remains an open challenge for fine-grained medical classification. By releasing both the dataset and the evaluation framework, CleanPatrick enables a systematic comparison of image-cleaning strategies and paves the way for more reliable data-centric artificial intelligence.
- Abstract(参考訳): ロバスト機械学習はクリーンなデータに依存するが、現在の画像データクリーニングベンチマークは合成ノイズや狭い人間の研究に依存し、比較と実世界の関連性を制限している。
我々は、画像ドメインでデータクリーニングを行う最初の大規模ベンチマークであるCleanPatrickを紹介した。
我々は,933人の医療関係者から496,377のバイナリアノテーションを収集し,対象外のサンプル(4%),ほぼ重複点(21%),ラベルエラー(22%)を特定し,項目応答理論に触発された集約モデルを用いて,高品質な地上真実を導出する専門家レビューを行った。
CleanPatrickは、問題検出をランキングタスクとして形式化し、実際の監査ワークフローを反映した一般的なランキングメトリクスを採用する。
古典的異常検知器,知覚的ハッシュ,SSIM,信頼学習,ノイズランク,セルフクリーンをベンチマークした結果,クリーンパトリックでは,ほぼ重複検出において自己監督的表現が優れ,古典的手法は制約されたレビュー予算の下で競合的非トピック検出を実現し,ラベルエラー検出は詳細な医療分類においてオープンな課題であることがわかった。
データセットと評価フレームワークの両方をリリースすることにより、CleanPatrickは画像クリーニング戦略の体系的な比較を可能にし、より信頼性の高いデータ中心の人工知能を実現する。
関連論文リスト
- SoftPatch+: Fully Unsupervised Anomaly Classification and Segmentation [84.07909405887696]
本論文は、完全教師なし産業異常検出(すなわち、ノイズデータ付き教師なしAD)を初めて検討したものである。
メモリベースの非教師なしAD手法であるSoftPatchとSoftPatch+を提案する。
既存の手法と比較して、SoftPatchは通常のデータの強力なモデリング能力を維持し、コアセットにおける過信問題を軽減する。
様々なノイズシナリオで実施された総合的な実験により、SoftPatchとSoftPatch+はMVTecAD、ViSA、BTADのベンチマークで最先端のADメソッドよりも優れていた。
論文 参考訳(メタデータ) (2024-12-30T11:16:49Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - SoftPatch: Unsupervised Anomaly Detection with Noisy Data [67.38948127630644]
本稿では,画像センサ異常検出におけるラベルレベルのノイズを初めて考察する。
本稿では,メモリベースの非教師付きAD手法であるSoftPatchを提案する。
既存の手法と比較して、SoftPatchは通常のデータの強力なモデリング能力を維持し、コアセットにおける過信問題を軽減する。
論文 参考訳(メタデータ) (2024-03-21T08:49:34Z) - Towards Reliable Dermatology Evaluation Benchmarks [37.464923424849964]
デジタル皮膚学のベンチマークデータセットには、モデルパフォーマンス推定の信頼性を低下させる不正確さが無意識に含まれている。
本稿では,前回のキュレーションを回避した問題を特定するために,資源効率の高いデータクリーニングプロトコルを提案する。
論文 参考訳(メタデータ) (2023-09-13T13:54:32Z) - Intrinsic Self-Supervision for Data Quality Audits [35.69673085324971]
コンピュータビジョンにおけるベンチマークデータセットは、しばしば、オフトピック画像、ほぼ重複、ラベルエラーを含む。
本稿では,データクリーニングの課題を再考し,ランキング問題やスコアリング問題として定式化する。
文脈認識型自己教師型表現学習と距離に基づく指標の組み合わせは, 適応バイアスのない問題発見に有効であることがわかった。
論文 参考訳(メタデータ) (2023-05-26T15:57:04Z) - Class Prototype-based Cleaner for Label Noise Learning [73.007001454085]
半教師付き学習法は、雑音ラベル学習問題に対する現在のSOTAソリューションである。
textbfClass textbfPrototype-based label textbfCleaner。
論文 参考訳(メタデータ) (2022-12-21T04:56:41Z) - Active label cleaning: Improving dataset quality under resource
constraints [13.716577886649018]
ラベルノイズとして知られるデータアノテーションの欠陥は、機械学習モデルのトレーニングに有害である。
この研究は、再アノテーションのためのサンプルを優先順位付けするためのデータ駆動アプローチを提唱する。
評価されたラベルの正しさと各サンプルのラベル付け難易度に応じて格付けを行い,再現性を評価するためのシミュレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2021-09-01T19:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。