論文の概要: Combating Label Noise With A General Surrogate Model For Sample
Selection
- arxiv url: http://arxiv.org/abs/2310.10463v1
- Date: Mon, 16 Oct 2023 14:43:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 13:46:47.449153
- Title: Combating Label Noise With A General Surrogate Model For Sample
Selection
- Title(参考訳): サンプル選択のための汎用サロゲートモデルによるラベルノイズ対策
- Authors: Chao Liang, Linchao Zhu, Humphrey Shi, Yi Yang
- Abstract要約: 本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
- 参考スコア(独自算出の注目度): 84.61367781175984
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern deep learning systems are data-hungry. Learning with web data is one
of the feasible solutions, but will introduce label noise inevitably, which can
hinder the performance of deep neural networks. Sample selection is an
effective way to deal with label noise. The key is to separate clean samples
based on some criterion. Previous methods pay more attention to the small loss
criterion where small-loss samples are regarded as clean ones. Nevertheless,
such a strategy relies on the learning dynamics of each data instance. Some
noisy samples are still memorized due to frequently occurring corrupted
learning patterns. To tackle this problem, a training-free surrogate model is
preferred, freeing from the effect of memorization. In this work, we propose to
leverage the vision-language surrogate model CLIP to filter noisy samples
automatically. CLIP brings external knowledge to facilitate the selection of
clean samples with its ability of text-image alignment. Furthermore, a margin
adaptive loss is designed to regularize the selection bias introduced by CLIP,
providing robustness to label noise. We validate the effectiveness of our
proposed method on both real-world and synthetic noisy datasets. Our method
achieves significant improvement without CLIP involved during the inference
stage.
- Abstract(参考訳): 現代のディープラーニングシステムはデータ不足だ。
Webデータによる学習は、実現可能なソリューションのひとつだが、必然的にラベルノイズを導入し、ディープニューラルネットワークのパフォーマンスを阻害する。
サンプル選択はラベルノイズを扱う効果的な方法である。
鍵となるのは、いくつかの基準に基づいてクリーンなサンプルを分離することだ。
従来の方法では、小さなロスサンプルをクリーンなものと見なす小さな損失基準に注意が払われる。
それでも、このような戦略は各データインスタンスの学習ダイナミクスに依存している。
いくつかのノイズのあるサンプルは、頻繁に発生する学習パターンのために記憶されている。
この問題に対処するためには,記憶の影響から解放されたトレーニングフリーサーロゲートモデルが好まれる。
本研究では,視覚言語サロゲートモデルクリップを用いて雑音サンプルの自動フィルタリングを行う。
CLIPは、テキストイメージアライメント機能を備えたクリーンサンプルの選択を容易にするために、外部知識を提供する。
さらに、CLIPが導入した選択バイアスを正規化するためにマージン適応損失を設計し、ラベルノイズに対する堅牢性を提供する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
提案手法は推論段階においてCLIPを伴わずに大幅な改善を実現する。
関連論文リスト
- CLIPCleaner: Cleaning Noisy Labels with CLIP [36.434849361479316]
textitCLIPCleanerは、効率的なオフライン、クリーンなサンプル選択のためのゼロショット分類器である。
textitCLIPCleanerは、ベンチマークデータセット上での競合や優れたパフォーマンスを実現する、シンプルなシングルステップのアプローチを提供する。
論文 参考訳(メタデータ) (2024-08-19T14:05:58Z) - Foster Adaptivity and Balance in Learning with Noisy Labels [26.309508654960354]
我々はtextbfSelf-adaptivtextbfE とクラスバランスtextbfD 方式でラベルノイズに対処するための textbfSED という新しい手法を提案する。
平均教師モデルは、ノイズの多いサンプルのラベルを修正するために使用される。
また,検出した雑音に異なる重みを割り当てる自己適応型およびクラスバランスのサンプル再重み付け機構を提案する。
論文 参考訳(メタデータ) (2024-07-03T03:10:24Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Learning with Noisy Labels Using Collaborative Sample Selection and
Contrastive Semi-Supervised Learning [76.00798972439004]
Collaborative Sample Selection (CSS)は、特定されたクリーンセットからノイズの多いサンプルを削除する。
半教師付き学習において、対照的な損失を伴う協調学習機構を導入する。
論文 参考訳(メタデータ) (2023-10-24T05:37:20Z) - PASS: Peer-Agreement based Sample Selection for training with Noisy Labels [16.283722126438125]
ノイズラベルサンプルの頻度は、深層学習において重要な課題となり、過剰適合効果を誘発する。
現在の方法論は、しばしばノイズとクリーンなラベルのサンプルを分離するために、小さな損失仮説や特徴に基づく選択に依存している。
本稿では,PASS (Peer-Agreement based Sample Selection) と呼ばれる新しいノイズラベル検出手法を提案する。
論文 参考訳(メタデータ) (2023-03-20T00:35:33Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - Learning from Noisy Labels with Coarse-to-Fine Sample Credibility
Modeling [22.62790706276081]
ノイズの多いラベルでディープニューラルネットワーク(DNN)を訓練することは事実上難しい。
従来の取り組みでは、統合されたデノナイジングフローで部分データや完全なデータを扱う傾向があります。
本研究では,ノイズの多いデータを分割・分散的に処理するために,CREMAと呼ばれる粗大な頑健な学習手法を提案する。
論文 参考訳(メタデータ) (2022-08-23T02:06:38Z) - UNICON: Combating Label Noise Through Uniform Selection and Contrastive
Learning [89.56465237941013]
UNICONは,高ラベル雑音に対して頑健な,シンプルで効果的なサンプル選択法である。
90%のノイズレートでCIFAR100データセットの最先端データよりも11.4%改善した。
論文 参考訳(メタデータ) (2022-03-28T07:36:36Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Salvage Reusable Samples from Noisy Data for Robust Learning [70.48919625304]
本稿では,Web画像を用いた深部FGモデルのトレーニングにおいて,ラベルノイズに対処するための再利用可能なサンプル選択と修正手法を提案する。
私たちのキーとなるアイデアは、再利用可能なサンプルの追加と修正を行い、それらをクリーンな例とともに活用してネットワークを更新することです。
論文 参考訳(メタデータ) (2020-08-06T02:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。