論文の概要: An accurate detection is not all you need to combat label noise in web-noisy datasets
- arxiv url: http://arxiv.org/abs/2407.05528v1
- Date: Mon, 8 Jul 2024 00:21:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 17:29:37.348652
- Title: An accurate detection is not all you need to combat label noise in web-noisy datasets
- Title(参考訳): 正確な検出は、Webノイズの多いデータセットでラベルノイズに対処するために必要なものだけではない
- Authors: Paul Albert, Jack Valmadre, Eric Arazo, Tarun Krishna, Noel E. O'Connor, Kevin McGuinness,
- Abstract要約: 分離した超平面の直接推定により,OOD試料の正確な検出が可能であることを示す。
本稿では,線形分離を用いた雑音検出とSOTA(State-of-the-art-the-loss)アプローチを交互に行うハイブリッドソリューションを提案する。
- 参考スコア(独自算出の注目度): 23.020126612431746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a classifier on web-crawled data demands learning algorithms that are robust to annotation errors and irrelevant examples. This paper builds upon the recent empirical observation that applying unsupervised contrastive learning to noisy, web-crawled datasets yields a feature representation under which the in-distribution (ID) and out-of-distribution (OOD) samples are linearly separable. We show that direct estimation of the separating hyperplane can indeed offer an accurate detection of OOD samples, and yet, surprisingly, this detection does not translate into gains in classification accuracy. Digging deeper into this phenomenon, we discover that the near-perfect detection misses a type of clean examples that are valuable for supervised learning. These examples often represent visually simple images, which are relatively easy to identify as clean examples using standard loss- or distance-based methods despite being poorly separated from the OOD distribution using unsupervised learning. Because we further observe a low correlation with SOTA metrics, this urges us to propose a hybrid solution that alternates between noise detection using linear separation and a state-of-the-art (SOTA) small-loss approach. When combined with the SOTA algorithm PLS, we substantially improve SOTA results for real-world image classification in the presence of web noise github.com/PaulAlbert31/LSA
- Abstract(参考訳): Webcrawledデータ上の分類器のトレーニングでは、アノテーションエラーや無関係な例に対して堅牢な学習アルゴリズムが要求される。
本稿では,教師なしのコントラスト学習をノイズに応用した最近の経験的考察に基づいて,Webcrawled データセットは,分布内 (ID) と分布外 (OOD) のサンプルが線形に分離可能な特徴表現を与える。
分離された超平面の直接推定は、OODサンプルの正確な検出を可能にするが、驚くべきことに、この検出は分類精度の上昇に寄与しない。
この現象を深く掘り下げると、ほぼ完璧な検出は、教師あり学習に有用なクリーンな例を見逃すことがわかりました。
これらの例はしばしば視覚的に単純なイメージを表しており、教師なし学習を用いてOOD分布から疎外されているにもかかわらず、標準的なロスベースや距離ベースの手法を用いて、比較的クリーンな例として識別するのが簡単である。
さらに,SOTA測定値との相関が低いことから,線形分離を用いたノイズ検出とSOTA(State-of-the-art)の小型化を交互に行うハイブリッドソリューションを提案する。
Web noise github.com/PaulAlbert31/LSA の存在下での実世界の画像分類における SOTA アルゴリズム PLS と組み合わせることで,SOTA の精度を大幅に向上する。
関連論文リスト
- Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - A noisy elephant in the room: Is your out-of-distribution detector robust to label noise? [49.88894124047644]
我々は、最先端のOOD検出方法20について詳しく検討する。
不正に分類されたIDサンプルとOODサンプルの分離が不十分であることを示す。
論文 参考訳(メタデータ) (2024-04-02T09:40:22Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Embedding contrastive unsupervised features to cluster in- and
out-of-distribution noise in corrupted image datasets [18.19216557948184]
Web画像検索に検索エンジンを使用することは、イメージデータセットを作成する際の手作業によるキュレーションに代わる誘惑的な手段である。
主な欠点は、回収された間違った(ノイズの多い)サンプルの割合である。
本稿では,教師なしのコントラスト特徴学習を用いた検出ステップから始める2段階のアルゴリズムを提案する。
比較学習のアライメントと均一性原理により,OODサンプルは単位超球面上のIDサンプルから線形に分離できることがわかった。
論文 参考訳(メタデータ) (2022-07-04T16:51:56Z) - Robust Training under Label Noise by Over-parameterization [41.03008228953627]
本稿では,トレーニングラベルの比率が低下した分類タスクにおいて,過パラメータ化深層ネットワークの堅牢なトレーニングを行うための原則的手法を提案する。
ラベルノイズはクリーンデータから学んだネットワークと疎結合なので、ノイズをモデル化してデータから分離することを学びます。
注目すべきは、このような単純な手法を用いて訓練を行う場合、様々な実データに対してラベルノイズに対する最先端のテスト精度を示すことである。
論文 参考訳(メタデータ) (2022-02-28T18:50:10Z) - NGC: A Unified Framework for Learning with Open-World Noisy Data [36.96188289965334]
本稿では,データの幾何学的構造とモデル予測信頼性を利用して,クリーンなサンプルを収集するグラフベースの新しいフレームワークであるNoisy Graph Cleaning(NGC)を提案する。
異なる種類のノイズを持つ複数のベンチマークで実験を行い、その結果、我々の手法の最先端性能を実証した。
論文 参考訳(メタデータ) (2021-08-25T04:04:46Z) - Salvage Reusable Samples from Noisy Data for Robust Learning [70.48919625304]
本稿では,Web画像を用いた深部FGモデルのトレーニングにおいて,ラベルノイズに対処するための再利用可能なサンプル選択と修正手法を提案する。
私たちのキーとなるアイデアは、再利用可能なサンプルの追加と修正を行い、それらをクリーンな例とともに活用してネットワークを更新することです。
論文 参考訳(メタデータ) (2020-08-06T02:07:21Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。