論文の概要: AlleNoise: large-scale text classification benchmark dataset with real-world label noise
- arxiv url: http://arxiv.org/abs/2407.10992v2
- Date: Wed, 23 Oct 2024 16:19:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 21:21:36.904587
- Title: AlleNoise: large-scale text classification benchmark dataset with real-world label noise
- Title(参考訳): AlleNoise: 実世界のラベルノイズを用いた大規模テキスト分類ベンチマークデータセット
- Authors: Alicja Rączkowska, Aleksandra Osowska-Kurczab, Jacek Szczerbiński, Kalina Jasinska-Kobus, Klaudia Nazarko,
- Abstract要約: 我々は、実世界のインスタンス依存ラベルノイズを持つ新しいキュレートされたテキスト分類ベンチマークであるAlleNoiseを提示する。
ノイズの分布は、主要なeコマースマーケットプレースの実際のユーザから来ており、人間のミスの意味を現実的に反映している。
このような実環境騒音に対処するには,雑音ラベルを用いた学習方法の代表的選択が不十分であることを示す。
- 参考スコア(独自算出の注目度): 40.11095094521714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Label noise remains a challenge for training robust classification models. Most methods for mitigating label noise have been benchmarked using primarily datasets with synthetic noise. While the need for datasets with realistic noise distribution has partially been addressed by web-scraped benchmarks such as WebVision and Clothing1M, those benchmarks are restricted to the computer vision domain. With the growing importance of Transformer-based models, it is crucial to establish text classification benchmarks for learning with noisy labels. In this paper, we present AlleNoise, a new curated text classification benchmark dataset with real-world instance-dependent label noise, containing over 500,000 examples across approximately 5,600 classes, complemented with a meaningful, hierarchical taxonomy of categories. The noise distribution comes from actual users of a major e-commerce marketplace, so it realistically reflects the semantics of human mistakes. In addition to the noisy labels, we provide human-verified clean labels, which help to get a deeper insight into the noise distribution, unlike web-scraped datasets typically used in the field. We demonstrate that a representative selection of established methods for learning with noisy labels is inadequate to handle such real-world noise. In addition, we show evidence that these algorithms do not alleviate excessive memorization. As such, with AlleNoise, we set the bar high for the development of label noise methods that can handle real-world label noise in text classification tasks. The code and dataset are available for download at https://github.com/allegro/AlleNoise.
- Abstract(参考訳): ラベルノイズは、ロバストな分類モデルのトレーニングにおいて依然として課題である。
ラベルノイズを緩和するほとんどの方法は、主に合成ノイズを伴うデータセットを用いてベンチマークされている。
現実的なノイズ分布を持つデータセットの必要性は、WebVisionやChrothing1MといったWebスクラッドベンチマークによって部分的に解決されているが、これらのベンチマークはコンピュータビジョンドメインに限定されている。
Transformerベースのモデルの重要性が高まっているため、ノイズのあるラベルで学習するためのテキスト分類ベンチマークを確立することが不可欠である。
本稿では、約5600のクラスに50,000以上のサンプルを含む実世界のインスタンス依存ラベルノイズを持つ、新しいキュレートされたテキスト分類ベンチマークであるAlleNoiseについて、有意義で階層的な分類法を補完する。
ノイズの分布は、主要なeコマースマーケットプレースの実際のユーザから来ており、人間のミスの意味を現実的に反映している。
ノイズラベルに加えて、典型的にはフィールドで使用されるWebスクラッドデータセットとは異なり、ノイズ分布に関する深い洞察を得るのに役立つ、人間検証されたクリーンラベルも提供します。
このような実環境騒音に対処するには,雑音ラベルを用いた学習方法の代表的選択が不十分であることを示す。
さらに,これらのアルゴリズムが過剰な暗記を緩和しないことを示す。
そこで、AlleNoiseでは、テキスト分類タスクにおける実世界のラベルノイズを処理できるラベルノイズ法の開発のために、バーを高く設定する。
コードとデータセットはhttps://github.com/allegro/AlleNoise.comからダウンロードできる。
関連論文リスト
- NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。
実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。
以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文 参考訳(メタデータ) (2024-07-09T06:18:40Z) - Generating the Ground Truth: Synthetic Data for Soft Label and Label Noise Research [0.0]
実世界のデータからノイズのないデータセットを作成するためのフレームワークであるSynLABELを紹介する。
ラベルノイズを精度よく定量化する能力と,既存の手法による改善を実証する。
論文 参考訳(メタデータ) (2023-09-08T13:31:06Z) - Rethinking the Value of Labels for Instance-Dependent Label Noise
Learning [43.481591776038144]
実世界のアプリケーションにおけるノイズの多いラベルは、しばしば真のラベルと機能の両方に依存します。
本研究では、ノイズ遷移行列を明示的にモデル化しない新しい深層生成モデルを用いて、インスタンス依存ラベルノイズに対処する。
提案アルゴリズムは,カジュアルな表現学習を活用し,データから高レベルのコンテンツとスタイルの潜伏要素を同時に識別する。
論文 参考訳(メタデータ) (2023-05-10T15:29:07Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Noisy Labels Can Induce Good Representations [53.47668632785373]
アーキテクチャがノイズラベルによる学習に与える影響について検討する。
ノイズラベルを用いたトレーニングは,モデルが一般化に乏しい場合でも,有用な隠れ表現を誘導できることを示す。
この発見は、騒々しいラベルで訓練されたモデルを改善する簡単な方法につながります。
論文 参考訳(メタデータ) (2020-12-23T18:58:05Z) - A Second-Order Approach to Learning with Instance-Dependent Label Noise [58.555527517928596]
ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。
人間による注釈付きラベルのエラーは、タスクの難易度レベルに依存する可能性が高いことを示しています。
論文 参考訳(メタデータ) (2020-12-22T06:36:58Z) - Label Noise Types and Their Effects on Deep Learning [0.0]
本研究では,異なる種類のラベルノイズが学習に与える影響を詳細に分析する。
本稿では,特徴に依存したラベルノイズを生成する汎用フレームワークを提案する。
他の研究者がノイズの多いラベルでアルゴリズムをテストしやすいように、最も一般的に使用されているベンチマークデータセットに対して、破損したラベルを共有します。
論文 参考訳(メタデータ) (2020-03-23T18:03:39Z) - NoiseRank: Unsupervised Label Noise Reduction with Dependence Models [11.08987870095179]
マルコフランダム場(MRF)を用いた教師なしラベル雑音低減のためのノイズRankを提案する。
本研究では,データセットに誤ってラベル付けされたインスタンスの後方確率と,その推定確率に基づいてランク付けされたインスタンスを推定する依存性モデルを構築した。
NORankはFood101-N(20%ノイズ)の最先端分類を改善し、高雑音クローティング-1M(40%ノイズ)に有効である
論文 参考訳(メタデータ) (2020-03-15T01:10:25Z) - Multi-Class Classification from Noisy-Similarity-Labeled Data [98.13491369929798]
雑音に類似したラベル付きデータのみから学習する方法を提案する。
ノイズ遷移行列を用いて、クリーンデータとノイズデータの間にクラス後確率をブリッジする。
雑音のないクラスラベルをインスタンスに割り当てる新しい学習システムを構築した。
論文 参考訳(メタデータ) (2020-02-16T05:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。