論文の概要: Addressing out-of-distribution label noise in webly-labelled data
- arxiv url: http://arxiv.org/abs/2110.13699v1
- Date: Tue, 26 Oct 2021 13:38:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 14:54:02.829441
- Title: Addressing out-of-distribution label noise in webly-labelled data
- Title(参考訳): web ラベルデータにおける分散ラベルノイズの解消
- Authors: Paul Albert and Diego Ortego and Eric Arazo and Noel O'Connor and
Kevin McGuinness
- Abstract要約: 検索エンジンを用いたデータ収集とアノテーションは、完全に人間に注釈付けされたデータセットを生成するための単純な代替手段である。
ウェブクローリングは非常に時間がかかりますが、検索した画像のいくつかは必然的にノイズがあります。
Webから収集されたノイズの多いデータをトレーニングするための堅牢なアルゴリズムの設計は、重要な研究の観点である。
- 参考スコア(独自算出の注目度): 8.625286650577134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recurring focus of the deep learning community is towards reducing the
labeling effort. Data gathering and annotation using a search engine is a
simple alternative to generating a fully human-annotated and human-gathered
dataset. Although web crawling is very time efficient, some of the retrieved
images are unavoidably noisy, i.e. incorrectly labeled. Designing robust
algorithms for training on noisy data gathered from the web is an important
research perspective that would render the building of datasets easier. In this
paper we conduct a study to understand the type of label noise to expect when
building a dataset using a search engine. We review the current limitations of
state-of-the-art methods for dealing with noisy labels for image classification
tasks in the case of web noise distribution. We propose a simple solution to
bridge the gap with a fully clean dataset using Dynamic Softening of
Out-of-distribution Samples (DSOS), which we design on corrupted versions of
the CIFAR-100 dataset, and compare against state-of-the-art algorithms on the
web noise perturbated MiniImageNet and Stanford datasets and on real label
noise datasets: WebVision 1.0 and Clothing1M. Our work is fully reproducible
https://git.io/JKGcj
- Abstract(参考訳): ディープラーニングコミュニティの繰り返しの焦点は、ラベル付けの労力を減らすことだ。
検索エンジンを用いたデータ収集とアノテーションは、完全な人間アノテーションと人集合データセットを生成するための単純な代替手段である。
ウェブクローリングは非常に時間効率が良いが、検索された画像のいくつかは避けられないほどノイズが多い。
webから収集したノイズの多いデータをトレーニングするためのロバストなアルゴリズムを設計することは、データセットの構築を容易にする重要な研究視点である。
本稿では,検索エンジンを用いたデータセット構築時に期待されるラベルノイズの種類を理解するための研究を行う。
本稿では,Webノイズ分布における画像分類タスクのノイズラベル処理における最先端手法の限界について概説する。
我々は、CIFAR-100データセットの破損したバージョンを設計したDynamic Softening of Out-of-distriion Samples (DSOS) を用いて、完全にクリーンなデータセットでギャップを埋める簡単なソリューションを提案し、Webノイズを乱したMiniImageNetとStanfordデータセット、および実際のラベルノイズデータセットであるWebVision 1.0とCloting1Mの最先端アルゴリズムと比較した。
私たちの仕事は、完全に再現できます https://git.io/JKGcj
関連論文リスト
- AlleNoise: large-scale text classification benchmark dataset with real-world label noise [40.11095094521714]
我々は、実世界のインスタンス依存ラベルノイズを持つ新しいキュレートされたテキスト分類ベンチマークであるAlleNoiseを提示する。
ノイズの分布は、主要なeコマースマーケットプレースの実際のユーザから来ており、人間のミスの意味を現実的に反映している。
このような実環境騒音に対処するには,雑音ラベルを用いた学習方法の代表的選択が不十分であることを示す。
論文 参考訳(メタデータ) (2024-06-24T09:29:14Z) - Learning Confident Classifiers in the Presence of Label Noise [5.829762367794509]
本稿では,ノイズ観測のための確率論的モデルを提案し,信頼性の高い分類とセグメンテーションモデルの構築を可能にする。
実験により,本アルゴリズムは,検討された分類問題と分割問題に対して,最先端の解よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-01-02T04:27:25Z) - Embedding contrastive unsupervised features to cluster in- and
out-of-distribution noise in corrupted image datasets [18.19216557948184]
Web画像検索に検索エンジンを使用することは、イメージデータセットを作成する際の手作業によるキュレーションに代わる誘惑的な手段である。
主な欠点は、回収された間違った(ノイズの多い)サンプルの割合である。
本稿では,教師なしのコントラスト特徴学習を用いた検出ステップから始める2段階のアルゴリズムを提案する。
比較学習のアライメントと均一性原理により,OODサンプルは単位超球面上のIDサンプルから線形に分離できることがわかった。
論文 参考訳(メタデータ) (2022-07-04T16:51:56Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - Learning to Aggregate and Refine Noisy Labels for Visual Sentiment
Analysis [69.48582264712854]
本研究では,頑健な視覚的感情分析を行うための頑健な学習手法を提案する。
本手法は,トレーニング中にノイズラベルを集約・フィルタリングするために外部メモリに依存している。
公開データセットを用いたラベルノイズを用いた視覚的感情分析のベンチマークを構築した。
論文 参考訳(メタデータ) (2021-09-15T18:18:28Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Attention-Aware Noisy Label Learning for Image Classification [97.26664962498887]
大規模ラベル付きサンプルで学習した深層畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンにおいて顕著な進歩を遂げている。
大量のラベル付きビジュアルデータを取得する最も安価な方法は、Flickrのようなユーザーが提供するラベルでウェブサイトからクロールすることである。
本稿では,潜在的なラベルノイズのあるデータセットに基づいて学習したネットワークの識別能力を向上させるために,注目に敏感なラベル学習手法を提案する。
論文 参考訳(メタデータ) (2020-09-30T15:45:36Z) - Data-driven Meta-set Based Fine-Grained Visual Classification [61.083706396575295]
本稿では, ノイズの多いWeb画像に対して, 微粒化認識のためのデータ駆動型メタセットベースアプローチを提案する。
具体的には、少量のクリーンなメタセットでガイドされ、メタラーニング方式で選択ネットを訓練し、分布内および分布外ノイズ画像の識別を行う。
論文 参考訳(メタデータ) (2020-08-06T03:04:16Z) - Audio Tagging by Cross Filtering Noisy Labels [26.14064793686316]
そこで我々はCrossFilterという新しいフレームワークを提案し,音声タグ付けにおけるノイズラベル問題に対処する。
提案手法は最先端の性能を達成し,アンサンブルモデルを超えている。
論文 参考訳(メタデータ) (2020-07-16T07:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。