論文の概要: A Comprehensive Study on NLP Data Augmentation for Hate Speech Detection: Legacy Methods, BERT, and LLMs
- arxiv url: http://arxiv.org/abs/2404.00303v1
- Date: Sat, 30 Mar 2024 09:55:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 04:30:18.828047
- Title: A Comprehensive Study on NLP Data Augmentation for Hate Speech Detection: Legacy Methods, BERT, and LLMs
- Title(参考訳): ヘイト音声検出のためのNLPデータ拡張に関する総合的研究:レガシー手法,BERT,LLM
- Authors: Md Saroar Jahan, Mourad Oussalah, Djamila Romaissa Beddia, Jhuma kabir Mim, Nabil Arhab,
- Abstract要約: 本研究は,確立されたレガシーアプローチと,大規模言語モデル(LLM)のような現代的プラクティスの両立を探求する。
本稿では,コンテキストコサイン類似度フィルタを用いたBERTベースのエンコーダモデルの最適化利用を提案する。
提案したBERTによる文脈コサイン類似度フィルタはラベル変更をわずか0.05%に低下させ,その効果を0.7%高いF1性能で証明した。
- 参考スコア(独自算出の注目度): 0.6291443816903801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The surge of interest in data augmentation within the realm of NLP has been driven by the need to address challenges posed by hate speech domains, the dynamic nature of social media vocabulary, and the demands for large-scale neural networks requiring extensive training data. However, the prevalent use of lexical substitution in data augmentation has raised concerns, as it may inadvertently alter the intended meaning, thereby impacting the efficacy of supervised machine learning models. In pursuit of suitable data augmentation methods, this study explores both established legacy approaches and contemporary practices such as Large Language Models (LLM), including GPT in Hate Speech detection. Additionally, we propose an optimized utilization of BERT-based encoder models with contextual cosine similarity filtration, exposing significant limitations in prior synonym substitution methods. Our comparative analysis encompasses five popular augmentation techniques: WordNet and Fast-Text synonym replacement, Back-translation, BERT-mask contextual augmentation, and LLM. Our analysis across five benchmarked datasets revealed that while traditional methods like back-translation show low label alteration rates (0.3-1.5%), and BERT-based contextual synonym replacement offers sentence diversity but at the cost of higher label alteration rates (over 6%). Our proposed BERT-based contextual cosine similarity filtration markedly reduced label alteration to just 0.05%, demonstrating its efficacy in 0.7% higher F1 performance. However, augmenting data with GPT-3 not only avoided overfitting with up to sevenfold data increase but also improved embedding space coverage by 15% and classification F1 score by 1.4% over traditional methods, and by 0.8% over our method.
- Abstract(参考訳): NLPの領域におけるデータ拡張への関心の高まりは、ヘイトスピーチドメインによって引き起こされる課題、ソーシャルメディア語彙のダイナミックな性質、広範囲なトレーニングデータを必要とする大規模ニューラルネットワークの要求に対処する必要性によって引き起こされている。
しかし、データ拡張における語彙置換の一般的な使用は、意図した意味を不注意に変更し、教師付き機械学習モデルの有効性に影響を与える可能性があるとして、懸念が高まっている。
適切なデータ拡張手法を追求するため,Hate Speech DetectionにおけるGPTを含むLarge Language Models (LLM)のような,確立されたレガシーアプローチと現代的プラクティスの両方を探索した。
さらに,BERTに基づくエンコーダモデルと文脈的コサイン類似度フィルタを最適化し,先行する同義語置換法において重要な制約を明らかにすることを提案する。
我々の比較分析は、WordNetとFast-Textの同義語置換、Back-translation、BERT-maskの文脈拡張、LLMの5つの一般的な拡張技術を含んでいる。
5つのベンチマークデータセットから分析したところ、バックトランスレーションのような従来の手法ではラベル変更率が低い(0.3-1.5%)のに対して、BERTベースのコンテキスト同義語は文の多様性を提供するが、ラベル変更率が高い(6%以上)。
提案したBERTによる文脈コサイン類似度フィルタはラベル変更をわずか0.05%に低下させ,その効果を0.7%高いF1性能で証明した。
しかし, GPT-3によるデータ拡張は, 最大7倍のデータ増加によるオーバーフィッティングを回避するだけでなく, 埋め込み空間のカバレッジを15%向上し, F1の分類は従来の手法よりも1.4%向上し, 当社の手法より0.8%向上した。
関連論文リスト
- Depression detection in social media posts using transformer-based models and auxiliary features [6.390468088226495]
ソーシャルメディア投稿における抑うつの検出は、メンタルヘルス問題の増加により重要である。
従来の機械学習アルゴリズムは複雑なテキストパターンのキャプチャに失敗することが多く、抑うつを識別する効果を制限している。
本研究では,メタデータと言語マーカーを組み合わせたトランスフォーマーモデルを利用したニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-09-30T07:53:39Z) - A Novel Two-Step Fine-Tuning Pipeline for Cold-Start Active Learning in Text Classification Tasks [7.72751543977484]
本研究は, 寒冷開始シナリオにおけるアクティブラーニング(AL)タスクにおけるBERTベースのコンテキスト埋め込みの有効性について検討する。
私たちの主な貢献は、より堅牢な微調整パイプラインであるDoTCALの提案です。
本評価では,Bag of Words (BoW), Latent Semantic Indexing (LSI), FastTextなど,BERTベースの埋め込みと他の一般的なテキスト表現パラダイムとの対比を行った。
論文 参考訳(メタデータ) (2024-07-24T13:50:21Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of
GPT-Generated Text [82.5469544192645]
ダイバージェントN-Gram解析(DNA-GPT)と呼ばれる新しいトレーニング不要検出手法を提案する。
元の部分と新しい部分の違いをN-gram解析により解析することにより,機械生成テキストと人文テキストの分布に顕著な相違が明らかになった。
その結果, ゼロショットアプローチは, 人文とGPT生成テキストの区別において, 最先端の性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-05-27T03:58:29Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z) - Text Mining Drug/Chemical-Protein Interactions using an Ensemble of BERT
and T5 Based Models [3.7462395049372894]
バイオクリーティブVIIチャレンジのトラック1では、参加者が薬物と化学薬品とタンパク質の相互作用を識別するよう求められている。
本稿では,BERTに基づく文分類手法と,T5モデルを用いたより新しいテキスト・テキスト分類手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:14:06Z) - Using BERT Encoding to Tackle the Mad-lib Attack in SMS Spam Detection [0.0]
GoogleのBERTのような単語の意味や文脈に敏感な言語モデルが、この敵対的攻撃を克服するのに有用かどうかを検討する。
5572のSMSスパムメッセージのデータセットを用いて,まず検出性能の基準を確立した。
そして、これらのメッセージに含まれる語彙のシソーラスを構築し、Mad-lib攻撃実験をセットアップした。
その結果、従来のモデルは元のデータセットで94%のバランス精度(BA)を達成したのに対し、BERTモデルは96%を得た。
論文 参考訳(メタデータ) (2021-07-13T21:17:57Z) - Incorporating Word Sense Disambiguation in Neural Language Models [5.847824494580938]
語彙資源からの光沢定義をニューラルネットワークモデル(LM)に組み込むための教師付き(事前)学習手法を2つ提案する。
このトレーニングは、Word Sense Disambiguation(WSD)のモデルの性能を改善するとともに、パラメータをほとんど追加することなく、一般的な言語理解タスクにも役立ちます。
XLNet は BERT よりも WSD に適していることが判明した。
論文 参考訳(メタデータ) (2021-06-15T08:44:08Z) - TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for
Unsupervised Sentence Embedding Learning [53.32740707197856]
TSDAE(Sequential Denoising Auto-Encoder)を用いた最新の非監視方式を提案する。
ドメイン内の監視されたアプローチのパフォーマンスの93.1%を達成することができる。
論文 参考訳(メタデータ) (2021-04-14T17:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。