論文の概要: Task-Adaptive Pre-Training for Boosting Learning With Noisy Labels: A
Study on Text Classification for African Languages
- arxiv url: http://arxiv.org/abs/2206.01476v1
- Date: Fri, 3 Jun 2022 09:56:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 14:00:35.580383
- Title: Task-Adaptive Pre-Training for Boosting Learning With Noisy Labels: A
Study on Text Classification for African Languages
- Title(参考訳): 雑音ラベルを用いた学習促進のためのタスク適応型事前学習:アフリカ語テキスト分類に関する研究
- Authors: Dawei Zhu, Michael A. Hedderich, Fangzhou Zhai, David Ifeoluwa
Adelani, Dietrich Klakow
- Abstract要約: 本研究は,弱い監督によって誘発されるシミュレートノイズと現実雑音について検討する。
タスク適応型事前学習技術は,ノイズラベルによる学習に有用である。
- 参考スコア(独自算出の注目度): 23.554544399110508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For high-resource languages like English, text classification is a
well-studied task. The performance of modern NLP models easily achieves an
accuracy of more than 90% in many standard datasets for text classification in
English (Xie et al., 2019; Yang et al., 2019; Zaheer et al., 2020). However,
text classification in low-resource languages is still challenging due to the
lack of annotated data. Although methods like weak supervision and
crowdsourcing can help ease the annotation bottleneck, the annotations obtained
by these methods contain label noise. Models trained with label noise may not
generalize well. To this end, a variety of noise-handling techniques have been
proposed to alleviate the negative impact caused by the errors in the
annotations (for extensive surveys see (Hedderich et al., 2021; Algan & Ulusoy,
2021)). In this work, we experiment with a group of standard noisy-handling
methods on text classification tasks with noisy labels. We study both simulated
noise and realistic noise induced by weak supervision. Moreover, we find
task-adaptive pre-training techniques (Gururangan et al., 2020) are beneficial
for learning with noisy labels.
- Abstract(参考訳): 英語のような高リソース言語では、テキスト分類はよく研究されているタスクです。
現代のNLPモデルの性能は、英語のテキスト分類のための標準データセット(Xie et al., 2019; Yang et al., 2019; Zaheer et al., 2020)の90%以上の精度を容易に達成できる。
しかし、注釈付きデータがないため、低リソース言語でのテキスト分類は依然として難しい。
弱い監督やクラウドソーシングのような手法はアノテーションのボトルネックを緩和するのに役立つが、これらのメソッドによって得られるアノテーションはラベルノイズを含んでいる。
ラベルノイズで訓練されたモデルは、うまく一般化できないかもしれない。
この目的のために、アノテーションの誤りによる悪影響を軽減するために、様々なノイズハンドリング技術が提案されている(広範な調査については(hedderich et al., 2021; algan & ulusoy, 2021)。
本研究では,雑音ラベル付きテキスト分類タスクにおいて,標準雑音処理手法の一群を実験する。
弱制御による実環境騒音とシミュレート雑音の両方について検討した。
また,タスク適応型事前学習技術(Gururangan et al., 2020)は,ノイズラベルの学習に有用である。
関連論文リスト
- DIRECT: Deep Active Learning under Imbalance and Label Noise [17.011207573317453]
我々は,クラス不均衡とラベルノイズの両面において,アクティブラーニングの最初の研究を行う。
本稿では,クラス分離閾値を頑健に同定し,最も不確実な例を注釈する新しいアルゴリズムを提案する。
以上の結果から,DIRECTは最先端のアクティブ学習アルゴリズムと比較して,アノテーション予算の60%以上を節約できることが示された。
論文 参考訳(メタデータ) (2023-12-14T18:18:34Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - Context-based Virtual Adversarial Training for Text Classification with
Noisy Labels [1.9508698179748525]
本研究では,テキスト分類器が雑音ラベルに過度に収まらないよう,コンテキストベースの仮想対位訓練(ConVAT)を提案する。
従来の手法とは異なり,提案手法は入力よりも文脈レベルで逆学習を行う。
2種類のラベルノイズを持つ4つのテキスト分類データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-29T14:19:49Z) - Is BERT Robust to Label Noise? A Study on Learning with Noisy Labels in
Text Classification [23.554544399110508]
トレーニングデータの誤りラベルは、人間のアノテータがミスをしたときや、弱いまたは遠い監視によってデータが生成されるときに発生する。
複雑なノイズハンドリング技術は、モデルがこのラベルノイズに収まらないようにする必要があることが示されている。
BERTのような現代のNLPモデルを用いたテキスト分類タスクにおいて、様々なノイズタイプに対して、既存のノイズハンドリング手法は必ずしも性能を向上せず、さらに劣化する可能性があることを示す。
論文 参考訳(メタデータ) (2022-04-20T10:24:19Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - Robust Long-Tailed Learning under Label Noise [50.00837134041317]
本研究では,長期ラベル分布におけるラベルノイズ問題について検討する。
本稿では,長期学習のための雑音検出を実現する頑健なフレームワークAlgoを提案する。
我々のフレームワークは、半教師付き学習アルゴリズムを自然に活用して一般化をさらに改善することができる。
論文 参考訳(メタデータ) (2021-08-26T03:45:00Z) - Towards Robustness to Label Noise in Text Classification via Noise
Modeling [7.863638253070439]
NLPの大規模なデータセットは、誤った自動および人間のアノテーション手順のために、ノイズの多いラベルに悩まされる。
本稿では,ラベルノイズを用いたテキスト分類の問題について検討し,分類器上での補助雑音モデルを用いてこのノイズを捉えることを目的とする。
論文 参考訳(メタデータ) (2021-01-27T05:41:57Z) - A Second-Order Approach to Learning with Instance-Dependent Label Noise [58.555527517928596]
ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。
人間による注釈付きラベルのエラーは、タスクの難易度レベルに依存する可能性が高いことを示しています。
論文 参考訳(メタデータ) (2020-12-22T06:36:58Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Learning Not to Learn in the Presence of Noisy Labels [104.7655376309784]
ギャンブラーの損失と呼ばれる新しい種類の損失関数は、様々なレベルの汚職にまたがってノイズをラベル付けするのに強い堅牢性をもたらすことを示す。
この損失関数によるトレーニングは、ノイズのあるラベルを持つデータポイントでの学習を"維持"することをモデルに促すことを示す。
論文 参考訳(メタデータ) (2020-02-16T09:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。