論文の概要: Combating Label Noise With A General Surrogate Model For Sample Selection
- arxiv url: http://arxiv.org/abs/2310.10463v2
- Date: Mon, 30 Dec 2024 05:13:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:00:58.437345
- Title: Combating Label Noise With A General Surrogate Model For Sample Selection
- Title(参考訳): サンプル選択のための一般的なサロゲートモデルによるラベルノイズの圧縮
- Authors: Chao Liang, Linchao Zhu, Humphrey Shi, Yi Yang,
- Abstract要約: 本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
- 参考スコア(独自算出の注目度): 77.45468386115306
- License:
- Abstract: Modern deep learning systems are data-hungry. Learning with web data is one of the feasible solutions, but will introduce label noise inevitably, which can hinder the performance of deep neural networks. Sample selection is an effective way to deal with label noise. The key is to separate clean samples based on some criterion. Previous methods pay more attention to the small loss criterion where small-loss samples are regarded as clean ones. Nevertheless, such a strategy relies on the learning dynamics of each data instance. Some noisy samples are still memorized due to frequently occurring corrupted learning patterns. To tackle this problem, a training-free surrogate model is preferred, freeing from the effect of memorization. In this work, we propose to leverage the vision-language surrogate model CLIP to filter noisy samples automatically. CLIP brings external knowledge to facilitate the selection of clean samples with its ability of text-image alignment. Furthermore, a margin adaptive loss is designed to regularize the selection bias introduced by CLIP, providing robustness to label noise. We validate the effectiveness of our proposed method on both real-world and synthetic noisy datasets. Our method achieves significant improvement without CLIP involved during the inference stage.
- Abstract(参考訳): 現代のディープラーニングシステムはデータ不足だ。
Webデータによる学習は、実現可能なソリューションのひとつだが、必然的にラベルノイズを導入し、ディープニューラルネットワークのパフォーマンスを阻害する。
サンプル選択はラベルノイズに対処する効果的な方法である。
鍵となるのは、いくつかの基準に基づいてクリーンなサンプルを分離することだ。
従来の方法では、小さなロスサンプルをクリーンなものと見なす小さな損失基準に注意が払われる。
それでも、このような戦略は各データインスタンスの学習ダイナミクスに依存している。
いくつかのノイズのあるサンプルは、頻繁に発生する学習パターンのために記憶されている。
この問題に対処するためには、記憶の影響から解放されたトレーニングフリーの代理モデルが好ましい。
本研究では,視覚言語サロゲートモデルCLIPを用いて,雑音のあるサンプルを自動的にフィルタリングする手法を提案する。
CLIPは、テキストイメージアライメント機能を備えたクリーンサンプルの選択を容易にするために、外部知識を提供する。
さらに、CLIPが導入した選択バイアスを正規化するためにマージン適応損失を設計し、ラベルノイズに対する堅牢性を提供する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
提案手法は推論段階においてCLIPを伴わずに大幅な改善が達成される。
関連論文リスト
- CLIPCleaner: Cleaning Noisy Labels with CLIP [36.434849361479316]
textitCLIPCleanerは、効率的なオフライン、クリーンなサンプル選択のためのゼロショット分類器である。
textitCLIPCleanerは、ベンチマークデータセット上での競合や優れたパフォーマンスを実現する、シンプルなシングルステップのアプローチを提供する。
論文 参考訳(メタデータ) (2024-08-19T14:05:58Z) - Foster Adaptivity and Balance in Learning with Noisy Labels [26.309508654960354]
我々はtextbfSelf-adaptivtextbfE とクラスバランスtextbfD 方式でラベルノイズに対処するための textbfSED という新しい手法を提案する。
平均教師モデルは、ノイズの多いサンプルのラベルを修正するために使用される。
また,検出した雑音に異なる重みを割り当てる自己適応型およびクラスバランスのサンプル再重み付け機構を提案する。
論文 参考訳(メタデータ) (2024-07-03T03:10:24Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Learning with Noisy Labels Using Collaborative Sample Selection and
Contrastive Semi-Supervised Learning [76.00798972439004]
Collaborative Sample Selection (CSS)は、特定されたクリーンセットからノイズの多いサンプルを削除する。
半教師付き学習において、対照的な損失を伴う協調学習機構を導入する。
論文 参考訳(メタデータ) (2023-10-24T05:37:20Z) - PASS: Peer-Agreement based Sample Selection for training with Noisy Labels [16.283722126438125]
ノイズラベルサンプルの頻度は、深層学習において重要な課題となり、過剰適合効果を誘発する。
現在の方法論は、しばしばノイズとクリーンなラベルのサンプルを分離するために、小さな損失仮説や特徴に基づく選択に依存している。
本稿では,PASS (Peer-Agreement based Sample Selection) と呼ばれる新しいノイズラベル検出手法を提案する。
論文 参考訳(メタデータ) (2023-03-20T00:35:33Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - Learning from Noisy Labels with Coarse-to-Fine Sample Credibility
Modeling [22.62790706276081]
ノイズの多いラベルでディープニューラルネットワーク(DNN)を訓練することは事実上難しい。
従来の取り組みでは、統合されたデノナイジングフローで部分データや完全なデータを扱う傾向があります。
本研究では,ノイズの多いデータを分割・分散的に処理するために,CREMAと呼ばれる粗大な頑健な学習手法を提案する。
論文 参考訳(メタデータ) (2022-08-23T02:06:38Z) - UNICON: Combating Label Noise Through Uniform Selection and Contrastive
Learning [89.56465237941013]
UNICONは,高ラベル雑音に対して頑健な,シンプルで効果的なサンプル選択法である。
90%のノイズレートでCIFAR100データセットの最先端データよりも11.4%改善した。
論文 参考訳(メタデータ) (2022-03-28T07:36:36Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Salvage Reusable Samples from Noisy Data for Robust Learning [70.48919625304]
本稿では,Web画像を用いた深部FGモデルのトレーニングにおいて,ラベルノイズに対処するための再利用可能なサンプル選択と修正手法を提案する。
私たちのキーとなるアイデアは、再利用可能なサンプルの追加と修正を行い、それらをクリーンな例とともに活用してネットワークを更新することです。
論文 参考訳(メタデータ) (2020-08-06T02:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。