論文の概要: NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification
- arxiv url: http://arxiv.org/abs/2407.06579v1
- Date: Tue, 9 Jul 2024 06:18:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 19:05:47.850919
- Title: NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification
- Title(参考訳): NoisyAG-News: テキスト分類におけるインスタンス依存ノイズの対応ベンチマーク
- Authors: Hongfei Huang, Tingting Liang, Xixi Sun, Zikang Jin, Yuyu Yin,
- Abstract要約: ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。
実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。
以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
- 参考スコア(独自算出の注目度): 7.464154519547575
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing research on learning with noisy labels predominantly focuses on synthetic label noise. Although synthetic noise possesses well-defined structural properties, it often fails to accurately replicate real-world noise patterns. In recent years, there has been a concerted effort to construct generalizable and controllable instance-dependent noise datasets for image classification, significantly advancing the development of noise-robust learning in this area. However, studies on noisy label learning for text classification remain scarce. To better understand label noise in real-world text classification settings, we constructed the benchmark dataset NoisyAG-News through manual annotation. Initially, we analyzed the annotated data to gather observations about real-world noise. We qualitatively and quantitatively demonstrated that real-world noisy labels adhere to instance-dependent patterns. Subsequently, we conducted comprehensive learning experiments on NoisyAG-News and its corresponding synthetic noise datasets using pre-trained language models and noise-handling techniques. Our findings reveal that while pre-trained models are resilient to synthetic noise, they struggle against instance-dependent noise, with samples of varying confusion levels showing inconsistent performance during training and testing. These real-world noise patterns pose new, significant challenges, prompting a reevaluation of noisy label handling methods. We hope that NoisyAG-News will facilitate the development and evaluation of future solutions for learning with noisy labels.
- Abstract(参考訳): ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
合成ノイズは明確に定義された構造特性を持つが、実世界のノイズパターンを正確に再現することができないことが多い。
近年,画像分類のための汎用・制御可能なインスタンス依存型ノイズデータセットの構築が盛んに行われており,この領域におけるノイズロバスト学習の発展が著しく進んでいる。
しかし、テキスト分類のためのノイズラベル学習の研究は依然として少ない。
実世界のテキスト分類設定におけるラベルノイズをよりよく理解するために,手動アノテーションを用いてベンチマークデータセットのNoisyAG-Newsを構築した。
まず,注釈付きデータを解析し,実環境騒音の観測を行った。
実世界のノイズラベルがインスタンス依存パターンに従うことを質的かつ定量的に実証した。
その後, 事前学習言語モデルとノイズハンドリング技術を用いて, NoisyAG-Newsとその合成ノイズデータセットに関する総合的な学習実験を行った。
以上の結果から,事前学習したモデルは合成ノイズに耐性があるが,実例依存ノイズに抗し,訓練と試験において不整合性を示す様々な混乱レベルのサンプルが得られた。
これらの実世界のノイズパターンは、新しい重要な課題を生じさせ、ノイズの多いラベル処理方法の再評価を促す。
NoisyAG-Newsは、ノイズラベルによる学習のための将来のソリューションの開発と評価を容易にすることを願っている。
関連論文リスト
- NoiseBench: Benchmarking the Impact of Real Label Noise on Named Entity Recognition [3.726602636064681]
そこで本研究では,実雑音がシミュレーションノイズよりもはるかに難易度が高いことを示す。
ノイズロスト学習の最先端モデルが理論的に達成可能な上限よりもはるかに低くなることを示す。
論文 参考訳(メタデータ) (2024-05-13T10:20:31Z) - NoisywikiHow: A Benchmark for Learning with Real-world Noisy Labels in
Natural Language Processing [26.678589684142548]
実世界の大規模なデータセットには、必然的にラベルノイズが伴う。
ディープモデルはノイズの多いラベルに徐々に適合し、一般化性能を低下させる。
ラベルノイズの影響を軽減するため,雑音ラベル法(LNL)による学習は,より優れた一般化性能を実現するために設計されている。
論文 参考訳(メタデータ) (2023-05-18T05:01:04Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Is BERT Robust to Label Noise? A Study on Learning with Noisy Labels in
Text Classification [23.554544399110508]
トレーニングデータの誤りラベルは、人間のアノテータがミスをしたときや、弱いまたは遠い監視によってデータが生成されるときに発生する。
複雑なノイズハンドリング技術は、モデルがこのラベルノイズに収まらないようにする必要があることが示されている。
BERTのような現代のNLPモデルを用いたテキスト分類タスクにおいて、様々なノイズタイプに対して、既存のノイズハンドリング手法は必ずしも性能を向上せず、さらに劣化する可能性があることを示す。
論文 参考訳(メタデータ) (2022-04-20T10:24:19Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - Learning to Aggregate and Refine Noisy Labels for Visual Sentiment
Analysis [69.48582264712854]
本研究では,頑健な視覚的感情分析を行うための頑健な学習手法を提案する。
本手法は,トレーニング中にノイズラベルを集約・フィルタリングするために外部メモリに依存している。
公開データセットを用いたラベルノイズを用いた視覚的感情分析のベンチマークを構築した。
論文 参考訳(メタデータ) (2021-09-15T18:18:28Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Analysing the Noise Model Error for Realistic Noisy Label Data [14.766574408868806]
本研究では,ノイズモデルの予測誤差を導出して,理論的な側面から推定ノイズモデルの品質について検討する。
NLPドメインから新たなノイズラベルデータセットであるNoisyNERも公開しています。
論文 参考訳(メタデータ) (2021-01-24T17:45:15Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - A Second-Order Approach to Learning with Instance-Dependent Label Noise [58.555527517928596]
ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。
人間による注釈付きラベルのエラーは、タスクの難易度レベルに依存する可能性が高いことを示しています。
論文 参考訳(メタデータ) (2020-12-22T06:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。