論文の概要: Hate Speech Detection in Limited Data Contexts using Synthetic Data
Generation
- arxiv url: http://arxiv.org/abs/2310.02876v1
- Date: Wed, 4 Oct 2023 15:10:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 14:41:28.631899
- Title: Hate Speech Detection in Limited Data Contexts using Synthetic Data
Generation
- Title(参考訳): 合成データ生成を用いた限られたデータコンテキストにおけるヘイトスピーチ検出
- Authors: Aman Khullar, Daniel Nkemelu, Cuong V. Nguyen, Michael L. Best
- Abstract要約: 本稿では,限られたデータコンテキストにおいて,オンラインヘイトスピーチ検出のためのデータ不足の問題に対処するデータ拡張手法を提案する。
対象言語におけるヘイトスピーチデータの新しい例を合成する3つの方法を提案する。
以上の結果から, 合成データを用いたモデルでは, 対象領域で利用可能なサンプルに対してのみ学習したモデルが比較可能であり, 性能が良好である場合も見いだされた。
- 参考スコア(独自算出の注目度): 1.9506923346234724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A growing body of work has focused on text classification methods for
detecting the increasing amount of hate speech posted online. This progress has
been limited to only a select number of highly-resourced languages causing
detection systems to either under-perform or not exist in limited data
contexts. This is majorly caused by a lack of training data which is expensive
to collect and curate in these settings. In this work, we propose a data
augmentation approach that addresses the problem of lack of data for online
hate speech detection in limited data contexts using synthetic data generation
techniques. Given a handful of hate speech examples in a high-resource language
such as English, we present three methods to synthesize new examples of hate
speech data in a target language that retains the hate sentiment in the
original examples but transfers the hate targets. We apply our approach to
generate training data for hate speech classification tasks in Hindi and
Vietnamese. Our findings show that a model trained on synthetic data performs
comparably to, and in some cases outperforms, a model trained only on the
samples available in the target domain. This method can be adopted to bootstrap
hate speech detection models from scratch in limited data contexts. As the
growth of social media within these contexts continues to outstrip response
efforts, this work furthers our capacities for detection, understanding, and
response to hate speech.
- Abstract(参考訳): オンライン投稿されたヘイトスピーチの量の増加を検出するためのテキスト分類手法に注目が集まっている。
この進歩は、限られたデータコンテキストにおいて、検出システムが性能が低いか存在しないかを引き起こすような、限られた数の高リソース言語に限られている。
これは主に、これらの設定で収集とキュレーションに費用がかかるトレーニングデータの欠如によって引き起こされる。
本研究では,オンラインヘイトスピーチ検出におけるデータ不足問題に対処するために,合成データ生成手法を用いたデータ拡張手法を提案する。
英語などの高資源言語におけるいくつかのヘイトスピーチ例を考慮すれば,ヘイトスピーチデータの新たな例を,元例のヘイト感情を維持しながらヘイトターゲットを転送するターゲット言語で合成する3つの手法を提案する。
本手法は,ヒンディー語とベトナム語におけるヘイトスピーチ分類タスクの訓練データを生成する。
以上の結果から,合成データで学習したモデルと,対象領域で利用可能なサンプルのみをトレーニングしたモデルとを比較検討した結果が得られた。
この手法は、限られたデータコンテキストにおいて、ゼロからヘイトスピーチ検出モデルをブートストラップに適用することができる。
これらの文脈におけるソーシャルメディアの成長は、反応の努力を超過しているため、この研究はヘイトスピーチの検出、理解、反応の能力を高める。
関連論文リスト
- Hate Speech Detection Using Cross-Platform Social Media Data In English and German Language [6.200058263544999]
本研究は,YouTubeコメントにおけるバイリンガルヘイトスピーチの検出に焦点を当てた。
コンテントの類似性、定義の類似性、一般的なヘイトワードなど、データセットがパフォーマンスに与える影響を測定する要素が含まれています。
最高のパフォーマンスは、YouTubeコメント、Twitter、Gabのデータセットと、英語とドイツ語のYouTubeコメントのためのF1スコアの0.74と0.68を組み合わせることで得られる。
論文 参考訳(メタデータ) (2024-10-02T10:22:53Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Robust Hate Speech Detection in Social Media: A Cross-Dataset Empirical
Evaluation [5.16706940452805]
我々は、さまざまなヘイトスピーチ検出データセット上で、言語モデルを微調整する大規模なクロスデータセット比較を行う。
この分析は、トレーニングデータとして使用するデータセットが、他のデータセットよりも一般化可能であることを示している。
実験により、ヘイトスピーチ検出データセットの組み合わせが、堅牢なヘイトスピーチ検出モデルの開発にどのように貢献するかが示されている。
論文 参考訳(メタデータ) (2023-07-04T12:22:40Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - APEACH: Attacking Pejorative Expressions with Analysis on
Crowd-Generated Hate Speech Evaluation Datasets [4.034948808542701]
APEACHは、特定されていないユーザによって生成されるヘイトスピーチの収集を可能にする方法である。
ヘイトスピーチの群集生成を制御し,最小限のポストラベルのみを追加することにより,ヘイトスピーチ検出の一般化と公平な評価を可能にするコーパスを作成する。
論文 参考訳(メタデータ) (2022-02-25T02:04:38Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Towards Hate Speech Detection at Large via Deep Generative Modeling [4.080068044420974]
ヘイトスピーチ検出はソーシャルメディアプラットフォームにおいて重要な問題である。
生成言語モデルにより生成された100万件の現実的憎悪と非憎悪のシーケンスのデータセットを提示する。
5つの公開ヘイトスピーチデータセットで一貫した、重要なパフォーマンス改善を実証する。
論文 参考訳(メタデータ) (2020-05-13T15:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。