論文の概要: Detecting White Supremacist Hate Speech using Domain Specific Word
Embedding with Deep Learning and BERT
- arxiv url: http://arxiv.org/abs/2010.00357v1
- Date: Thu, 1 Oct 2020 12:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 07:18:32.106703
- Title: Detecting White Supremacist Hate Speech using Domain Specific Word
Embedding with Deep Learning and BERT
- Title(参考訳): 深層学習とBERTを用いたドメイン固有単語埋め込みによるホワイト・サプリマリスト・ヘイトスピーチの検出
- Authors: Hind Saleh Alatawi, Areej Maatog Alhothali and Kawthar Mustafa Moria
- Abstract要約: 白人至上主義のヘイトスピーチは、ソーシャルメディア上で最も最近観察された有害なコンテンツの一つである。
本研究では,ディープラーニングと自然言語処理技術を用いて,Twitter上での白人至上主義者のヘイトスピーチを自動的に検出する可能性について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: White supremacists embrace a radical ideology that considers white people
superior to people of other races. The critical influence of these groups is no
longer limited to social media; they also have a significant effect on society
in many ways by promoting racial hatred and violence. White supremacist hate
speech is one of the most recently observed harmful content on social
media.Traditional channels of reporting hate speech have proved inadequate due
to the tremendous explosion of information, and therefore, it is necessary to
find an automatic way to detect such speech in a timely manner. This research
investigates the viability of automatically detecting white supremacist hate
speech on Twitter by using deep learning and natural language processing
techniques. Through our experiments, we used two approaches, the first approach
is by using domain-specific embeddings which are extracted from white
supremacist corpus in order to catch the meaning of this white supremacist
slang with bidirectional Long Short-Term Memory (LSTM) deep learning model,
this approach reached a 0.74890 F1-score. The second approach is by using the
one of the most recent language model which is BERT, BERT model provides the
state of the art of most NLP tasks. It reached to a 0.79605 F1-score. Both
approaches are tested on a balanced dataset given that our experiments were
based on textual data only. The dataset was combined from dataset created from
Twitter and a Stormfront dataset compiled from that white supremacist forum.
- Abstract(参考訳): 白人至上主義者は、他の人種よりも白人が優れていると考える急進的なイデオロギーを受け入れている。
これらの集団の批判的な影響はもはやソーシャルメディアに限らず、人種的な憎しみと暴力を促進することによって、社会に大きな影響を与える。
白人至上主義的ヘイトスピーチは、ソーシャルメディア上で最も最近観察された有害な内容の1つであり、情報の爆発によってヘイトスピーチの報告が不適切であることが判明しているため、タイムリーな方法でそのようなスピーチを自動的に検出する方法を見つける必要がある。
本研究では,ディープラーニングと自然言語処理技術を用いて,Twitter上での白人至上主義ヘイトスピーチの自動検出の可能性を検討する。
実験では,2つのアプローチを用いた。まず,この白色至上主義スラングの意味を把握するために,白色至上主義コーパスから抽出したドメイン固有埋め込みを用いて,双方向長短期記憶(LSTM)深層学習モデルを用いて,0.74890 F1スコアに達した。
2つ目のアプローチは、最新の言語モデルであるBERTを使用することで、BERTモデルはほとんどのNLPタスクの最先端技術を提供する。
0.79605 F1スコアに達した。
私たちの実験はテキストデータのみに基づいていたので、両方のアプローチはバランスの取れたデータセットでテストされます。
データセットは、twitterから作成されたデータセットと、その白人至上主義者フォーラムからコンパイルされたstormfrontデータセットから組み合わせられた。
関連論文リスト
- Silent Signals, Loud Impact: LLMs for Word-Sense Disambiguation of Coded Dog Whistles [47.61526125774749]
犬の笛は、特定の聴衆に二次的な意味を持ち、しばしば人種的・社会経済的差別のために武器化された符号化通信の一種である。
本稿では,Large Language Models (LLMs) を用いた標準音声からの犬笛の単語センスの曖昧化手法を提案する。
我々はこの手法を利用して、フォーマルで非公式なコミュニケーションに使用される犬の口笛の16,550個の高信頼符号化されたサンプルのデータセットを作成する。
論文 参考訳(メタデータ) (2024-06-10T23:09:19Z) - Analysis and Detection of Multilingual Hate Speech Using Transformer
Based Deep Learning [7.332311991395427]
ヘイトスピーチの普及に伴い,NLPタスクとしての自動検出の需要が高まっている。
本研究では、Twitter、Facebook、WhatsApp、Instagramなどのソーシャルメディアにおけるヘイトスピーチを検出するために、トランスフォーマーベースのモデルを提案する。
金の標準データセットは、著名な研究者Zeerak Talat、Sara Tonelli、Melanie Siegel、Rezaul Karimから収集された。
ヘイトスピーチ検出のための提案されたモデルの成功率は、ベンガルデータセットの精度の高い既存のベースラインや最先端モデルよりも高く、英語では89%、ドイツ語では91%である。
論文 参考訳(メタデータ) (2024-01-19T20:40:23Z) - An Investigation of Large Language Models for Real-World Hate Speech
Detection [46.15140831710683]
既存の手法の大きな制限は、ヘイトスピーチ検出がコンテキストの問題である点である。
近年,大規模言語モデル (LLM) はいくつかの自然言語処理において最先端の性能を示した。
本研究は, ヘイトスピーチの文脈を効果的に把握する上で, 巧妙な推論プロンプトが有効であることを明らかにする。
論文 参考訳(メタデータ) (2024-01-07T00:39:33Z) - A Weakly Supervised Classifier and Dataset of White Supremacist Language [6.893512627479197]
白人至上主義の言語を検出するためのデータセットと分類器を提案する。
我々の弱教師付き分類器は、中立的および反人種差別的なデータと組み合わせた、明確に白人至上主義的ドメインからの大量のテキストデータセットに基づいて訓練されている。
論文 参考訳(メタデータ) (2023-06-27T18:19:32Z) - From Dogwhistles to Bullhorns: Unveiling Coded Rhetoric with Language
Models [73.25963871034858]
本研究は,イヌヒストルの大規模数値計算による研究である。
我々は、ドッグウィストルの類型学を開発し、300以上のドッグウィストルの過去最大の用語集をキュレートし、歴史的なアメリカの政治家の演説でそれらの使用法を分析した。
犬毛を含む有害なコンテンツは毒性の検出を回避し,このような符号化された言語のオンラインリスクを強調している。
論文 参考訳(メタデータ) (2023-05-26T18:00:57Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Detection of Hate Speech using BERT and Hate Speech Word Embedding with
Deep Model [0.5801044612920815]
本稿では,双方向LSTMに基づくディープモデルにドメイン固有の単語を埋め込み,ヘイトスピーチを自動的に検出・分類する可能性について検討する。
実験の結果、Bidirectional LSTMベースのディープモデルによるドメイン固有単語の埋め込みは93%のf1スコアを獲得し、BERTは96%のf1スコアを達成した。
論文 参考訳(メタデータ) (2021-11-02T11:42:54Z) - Hate speech detection using static BERT embeddings [0.9176056742068814]
ヘイトスピーチは、特定のグループの特徴をターゲットとした虐待的スピーチを表現する主要な関心事として浮上している。
本稿では,単語埋め込みの置き換えや統合によるヘイトスピーチ検出の性能解析を行う。
細調整されたBERTと比較して、大幅に改善された指標は特異性である。
論文 参考訳(メタデータ) (2021-06-29T16:17:10Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z) - Intersectional Bias in Hate Speech and Abusive Language Datasets [0.3149883354098941]
アフリカ系アメリカ人のツイートの3.7倍は虐待的だと評価される傾向があった。
アフリカ系アメリカ人の男性ツイートは、ヘイトフルと評価される確率が最大で77%だった。
本研究はヘイトスピーチと虐待言語のデータセットにおける交差バイアスに関する最初の体系的な証拠を提供する。
論文 参考訳(メタデータ) (2020-05-12T16:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。