論文の概要: Unsupervised Domain Adaptation for Hate Speech Detection Using a Data
Augmentation Approach
- arxiv url: http://arxiv.org/abs/2107.12866v1
- Date: Tue, 27 Jul 2021 15:01:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 14:46:04.089219
- Title: Unsupervised Domain Adaptation for Hate Speech Detection Using a Data
Augmentation Approach
- Title(参考訳): データ拡張手法を用いたヘイト音声検出のための教師なし領域適応
- Authors: Sheikh Muhammad Sarwar and Vanessa Murdock
- Abstract要約: ヘイトスピーチ検出のためのラベル付きデータを拡張するための教師なし領域適応手法を提案する。
精度/リコール曲線の領域を最大42%改善し,278%改善した。
- 参考スコア(独自算出の注目度): 6.497816402045099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online harassment in the form of hate speech has been on the rise in recent
years. Addressing the issue requires a combination of content moderation by
people, aided by automatic detection methods. As content moderation is itself
harmful to the people doing it, we desire to reduce the burden by improving the
automatic detection of hate speech. Hate speech presents a challenge as it is
directed at different target groups using a completely different vocabulary.
Further the authors of the hate speech are incentivized to disguise their
behavior to avoid being removed from a platform. This makes it difficult to
develop a comprehensive data set for training and evaluating hate speech
detection models because the examples that represent one hate speech domain do
not typically represent others, even within the same language or culture. We
propose an unsupervised domain adaptation approach to augment labeled data for
hate speech detection. We evaluate the approach with three different models
(character CNNs, BiLSTMs and BERT) on three different collections. We show our
approach improves Area under the Precision/Recall curve by as much as 42% and
recall by as much as 278%, with no loss (and in some cases a significant gain)
in precision.
- Abstract(参考訳): ヘイトスピーチという形でのオンラインハラスメントは近年増加傾向にある。
この問題に対処するには、自動検出手法によって支援される、人々によるコンテンツモデレーションの組み合わせが必要である。
コンテンツモデレーション自体が人々に有害であるため、ヘイトスピーチの自動検出を改善して負担を軽減することを望む。
ヘイトスピーチは、全く異なる語彙を用いて異なるターゲットグループに向けられるため、課題を提示する。
さらに、ヘイトスピーチの著者は、プラットフォームから削除されるのを避けるために、彼らの振る舞いを偽装するインセンティブを与える。
これにより、1つのヘイトスピーチドメインを表す例が、同じ言語や文化内でも一般的に他の言語を表現していないため、ヘイトスピーチ検出モデルのトレーニングと評価のための包括的なデータセットの開発が困難になる。
ヘイトスピーチ検出のためのラベル付きデータ拡張のための教師なしドメイン適応手法を提案する。
3つの異なるモデル(CNN, BiLSTM, BERT)を3つの異なるコレクション上で評価する。
我々は,精度/リコール曲線下の領域を最大42%改善し,278%までリコールし,精度を損なうことなく(場合によってはかなりの利得)改善する手法を示した。
関連論文リスト
- Hierarchical Sentiment Analysis Framework for Hate Speech Detection: Implementing Binary and Multiclass Classification Strategy [0.0]
本稿では,英語におけるヘイトスピーチを検出するために,共有感情表現と統合された新しいマルチタスクモデルを提案する。
我々は、感情分析とトランスフォーマーに基づく訓練モデルを利用することで、複数のデータセット間でのヘイトスピーチの検出を大幅に改善できると結論付けた。
論文 参考訳(メタデータ) (2024-11-03T04:11:33Z) - Exploiting Hatred by Targets for Hate Speech Detection on Vietnamese Social Media Texts [0.0]
まず、ベトナムのソーシャルメディアテキストを対象としたヘイトスピーチ検出データセットViTHSDを紹介する。
データセットには10Kコメントが含まれており、各コメントには、クリーン、攻撃、ヘイトという3つのレベルがある特定のターゲットにラベルが付けられている。
データセットから得られたアノテーション間の合意は、コーエンのカッパ指数によって0.45であり、中程度のレベルとして示される。
論文 参考訳(メタデータ) (2024-04-30T04:16:55Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - Hate Speech Classification Using SVM and Naive BAYES [0.0]
多くの国は、オンラインヘイトスピーチを避けるための法律を開発した。
しかし、オンラインコンテンツが成長を続けるにつれ、ヘイトスピーチが広まる。
ヘイトスピーチを検出して削除するために、オンラインユーザーコンテンツを自動的に処理することが重要である。
論文 参考訳(メタデータ) (2022-03-21T17:15:38Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Reducing Target Group Bias in Hate Speech Detectors [56.94616390740415]
大規模な公開データセットでトレーニングされたテキスト分類モデルは、いくつかの保護されたグループで大幅に性能が低下する可能性がある。
本稿では,トークンレベルのヘイトセンスの曖昧さを実現し,トークンのヘイトセンスの表現を検知に利用することを提案する。
論文 参考訳(メタデータ) (2021-12-07T17:49:34Z) - Detection of Hate Speech using BERT and Hate Speech Word Embedding with
Deep Model [0.5801044612920815]
本稿では,双方向LSTMに基づくディープモデルにドメイン固有の単語を埋め込み,ヘイトスピーチを自動的に検出・分類する可能性について検討する。
実験の結果、Bidirectional LSTMベースのディープモデルによるドメイン固有単語の埋め込みは93%のf1スコアを獲得し、BERTは96%のf1スコアを達成した。
論文 参考訳(メタデータ) (2021-11-02T11:42:54Z) - Towards Hate Speech Detection at Large via Deep Generative Modeling [4.080068044420974]
ヘイトスピーチ検出はソーシャルメディアプラットフォームにおいて重要な問題である。
生成言語モデルにより生成された100万件の現実的憎悪と非憎悪のシーケンスのデータセットを提示する。
5つの公開ヘイトスピーチデータセットで一貫した、重要なパフォーマンス改善を実証する。
論文 参考訳(メタデータ) (2020-05-13T15:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。