論文の概要: Task-Adaptive Pre-Training for Boosting Learning With Noisy Labels: A
Study on Text Classification for African Languages
- arxiv url: http://arxiv.org/abs/2206.01476v1
- Date: Fri, 3 Jun 2022 09:56:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 14:00:35.580383
- Title: Task-Adaptive Pre-Training for Boosting Learning With Noisy Labels: A
Study on Text Classification for African Languages
- Title(参考訳): 雑音ラベルを用いた学習促進のためのタスク適応型事前学習:アフリカ語テキスト分類に関する研究
- Authors: Dawei Zhu, Michael A. Hedderich, Fangzhou Zhai, David Ifeoluwa
Adelani, Dietrich Klakow
- Abstract要約: 本研究は,弱い監督によって誘発されるシミュレートノイズと現実雑音について検討する。
タスク適応型事前学習技術は,ノイズラベルによる学習に有用である。
- 参考スコア(独自算出の注目度): 23.554544399110508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For high-resource languages like English, text classification is a
well-studied task. The performance of modern NLP models easily achieves an
accuracy of more than 90% in many standard datasets for text classification in
English (Xie et al., 2019; Yang et al., 2019; Zaheer et al., 2020). However,
text classification in low-resource languages is still challenging due to the
lack of annotated data. Although methods like weak supervision and
crowdsourcing can help ease the annotation bottleneck, the annotations obtained
by these methods contain label noise. Models trained with label noise may not
generalize well. To this end, a variety of noise-handling techniques have been
proposed to alleviate the negative impact caused by the errors in the
annotations (for extensive surveys see (Hedderich et al., 2021; Algan & Ulusoy,
2021)). In this work, we experiment with a group of standard noisy-handling
methods on text classification tasks with noisy labels. We study both simulated
noise and realistic noise induced by weak supervision. Moreover, we find
task-adaptive pre-training techniques (Gururangan et al., 2020) are beneficial
for learning with noisy labels.
- Abstract(参考訳): 英語のような高リソース言語では、テキスト分類はよく研究されているタスクです。
現代のNLPモデルの性能は、英語のテキスト分類のための標準データセット(Xie et al., 2019; Yang et al., 2019; Zaheer et al., 2020)の90%以上の精度を容易に達成できる。
しかし、注釈付きデータがないため、低リソース言語でのテキスト分類は依然として難しい。
弱い監督やクラウドソーシングのような手法はアノテーションのボトルネックを緩和するのに役立つが、これらのメソッドによって得られるアノテーションはラベルノイズを含んでいる。
ラベルノイズで訓練されたモデルは、うまく一般化できないかもしれない。
この目的のために、アノテーションの誤りによる悪影響を軽減するために、様々なノイズハンドリング技術が提案されている(広範な調査については(hedderich et al., 2021; algan & ulusoy, 2021)。
本研究では,雑音ラベル付きテキスト分類タスクにおいて,標準雑音処理手法の一群を実験する。
弱制御による実環境騒音とシミュレート雑音の両方について検討した。
また,タスク適応型事前学習技術(Gururangan et al., 2020)は,ノイズラベルの学習に有用である。
関連論文リスト
- NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。
実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。
以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文 参考訳(メタデータ) (2024-07-09T06:18:40Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - DIRECT: Deep Active Learning under Imbalance and Label Noise [15.571923343398657]
我々は,クラス不均衡とラベルノイズの両面において,アクティブラーニングの最初の研究を行う。
本稿では,クラス分離閾値を頑健に同定し,最も不確実な例を注釈する新しいアルゴリズムを提案する。
以上の結果から,DIRECTは最先端のアクティブ学習アルゴリズムと比較して,アノテーション予算の60%以上を節約できることが示された。
論文 参考訳(メタデータ) (2023-12-14T18:18:34Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - Context-based Virtual Adversarial Training for Text Classification with
Noisy Labels [1.9508698179748525]
本研究では,テキスト分類器が雑音ラベルに過度に収まらないよう,コンテキストベースの仮想対位訓練(ConVAT)を提案する。
従来の手法とは異なり,提案手法は入力よりも文脈レベルで逆学習を行う。
2種類のラベルノイズを持つ4つのテキスト分類データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-29T14:19:49Z) - Is BERT Robust to Label Noise? A Study on Learning with Noisy Labels in
Text Classification [23.554544399110508]
トレーニングデータの誤りラベルは、人間のアノテータがミスをしたときや、弱いまたは遠い監視によってデータが生成されるときに発生する。
複雑なノイズハンドリング技術は、モデルがこのラベルノイズに収まらないようにする必要があることが示されている。
BERTのような現代のNLPモデルを用いたテキスト分類タスクにおいて、様々なノイズタイプに対して、既存のノイズハンドリング手法は必ずしも性能を向上せず、さらに劣化する可能性があることを示す。
論文 参考訳(メタデータ) (2022-04-20T10:24:19Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - Robust Long-Tailed Learning under Label Noise [50.00837134041317]
本研究では,長期ラベル分布におけるラベルノイズ問題について検討する。
本稿では,長期学習のための雑音検出を実現する頑健なフレームワークAlgoを提案する。
我々のフレームワークは、半教師付き学習アルゴリズムを自然に活用して一般化をさらに改善することができる。
論文 参考訳(メタデータ) (2021-08-26T03:45:00Z) - A Second-Order Approach to Learning with Instance-Dependent Label Noise [58.555527517928596]
ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。
人間による注釈付きラベルのエラーは、タスクの難易度レベルに依存する可能性が高いことを示しています。
論文 参考訳(メタデータ) (2020-12-22T06:36:58Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。