論文の概要: Noisy Self-Training with Data Augmentations for Offensive and Hate
Speech Detection Tasks
- arxiv url: http://arxiv.org/abs/2307.16609v1
- Date: Mon, 31 Jul 2023 12:35:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 14:40:43.872674
- Title: Noisy Self-Training with Data Augmentations for Offensive and Hate
Speech Detection Tasks
- Title(参考訳): 攻撃的・ヘイト音声検出タスクのためのデータ拡張によるノイズ自己学習
- Authors: Jo\~ao A. Leite, Carolina Scarton, Diego F. Silva
- Abstract要約: ノイズ」自己学習アプローチには、予測整合性を確保し、敵攻撃に対する堅牢性を高めるために、データ拡張技術が組み込まれている。
2つの攻撃的/ヘイト音声データセットについて実験を行い、(i)自己学習はモデルのサイズに関わらず一貫して性能を向上し、両方のデータセットで最大1.5%F1マクロとなり、(ii)テキストデータ拡張によるノイズの多い自己学習は、同様の設定でうまく適用されているにもかかわらず、デフォルトの手法と比較して、バックトランスレーションのような最先端の手法であっても、攻撃的およびヘイト音声ドメインのパフォーマンスを低下させることを示した。
- 参考スコア(独自算出の注目度): 3.703767478524629
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Online social media is rife with offensive and hateful comments, prompting
the need for their automatic detection given the sheer amount of posts created
every second. Creating high-quality human-labelled datasets for this task is
difficult and costly, especially because non-offensive posts are significantly
more frequent than offensive ones. However, unlabelled data is abundant,
easier, and cheaper to obtain. In this scenario, self-training methods, using
weakly-labelled examples to increase the amount of training data, can be
employed. Recent "noisy" self-training approaches incorporate data augmentation
techniques to ensure prediction consistency and increase robustness against
noisy data and adversarial attacks. In this paper, we experiment with default
and noisy self-training using three different textual data augmentation
techniques across five different pre-trained BERT architectures varying in
size. We evaluate our experiments on two offensive/hate-speech datasets and
demonstrate that (i) self-training consistently improves performance regardless
of model size, resulting in up to +1.5% F1-macro on both datasets, and (ii)
noisy self-training with textual data augmentations, despite being successfully
applied in similar settings, decreases performance on offensive and hate-speech
domains when compared to the default method, even with state-of-the-art
augmentations such as backtranslation.
- Abstract(参考訳): オンラインソーシャルメディアは、攻撃的で憎悪的なコメントで溢れており、毎秒大量の投稿が作成されているため、自動検出の必要性が高まっている。
このタスクのために高品質な人間ラベル付きデータセットを作成するのは難しく、コストがかかる。
しかし、ラベルのないデータは豊富で、簡単に入手でき、安価である。
このシナリオでは、弱いラベル付き例を用いてトレーニングデータの量を増やす自己学習手法を用いることができる。
最近の"ノイズ"自己トレーニングアプローチでは、予測一貫性を確保し、ノイズデータや敵対的攻撃に対する堅牢性を高めるために、データ拡張技術が取り入れられている。
本稿では,5種類の事前学習されたBERTアーキテクチャを用いて,3種類のテキストデータ拡張手法を用いて,デフォルトおよびノイズの多い自己学習実験を行った。
我々は2つの攻撃的/hate-speechデータセットに関する実験を評価し,その実証を行った。
(i)自己学習はモデルのサイズに関わらず一貫して性能を向上し、両方のデータセット上で最大+1.5%のF1マクロが得られる。
(ii)同様の設定でうまく適用されたにもかかわらず、テキストデータ拡張によるノイズの多い自己学習は、バックトランスプリケーションのような最先端の強化であっても、デフォルトメソッドと比較して攻撃的および憎悪的ドメインのパフォーマンスを低下させる。
関連論文リスト
- Sexism Detection on a Data Diet [14.899608305188002]
モデルのトレーニング中に、インフルエンススコアを利用してデータポイントの重要性を推定する方法を示します。
ドメイン外の3つのデータセット上で異なるプルーニング戦略を用いて、データプルーニングに基づいてトレーニングされたモデル性能を評価する。
論文 参考訳(メタデータ) (2024-06-07T12:39:54Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Noisy student-teacher training for robust keyword spotting [13.264760485020757]
ストリーミングキーワードスポッティングのためのノイズの多い生徒-教師による自己学習手法を提案する。
提案手法は,生徒と教師の両方の入力に対してアグレッシブなデータ拡張を施す。
実験の結果,ノイズの多い学生-教員養成による自己学習は,いくつかの条件の厳しいテストセットの精度を最大60%向上させることがわかった。
論文 参考訳(メタデータ) (2021-06-03T05:36:18Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。