論文の概要: EkoHate: Abusive Language and Hate Speech Detection for Code-switched Political Discussions on Nigerian Twitter
- arxiv url: http://arxiv.org/abs/2404.18180v1
- Date: Sun, 28 Apr 2024 13:25:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 17:33:28.878776
- Title: EkoHate: Abusive Language and Hate Speech Detection for Code-switched Political Discussions on Nigerian Twitter
- Title(参考訳): EkoHate:ナイジェリアのTwitter上でのコード変更による政治討論のための乱用言語とヘイトスピーチ検出
- Authors: Comfort Eseohen Ilevbare, Jesujoba O. Alabi, David Ifeoluwa Adelani, Firdous Damilola Bakare, Oluwatoyin Bunmi Abiola, Oluwaseyi Adesina Adeyemo,
- Abstract要約: われわれは、ラゴス州知事選挙の3人の議員に向け、Twitterのコード変更データを精査した。
我々は、政治的議論のための虐待的言語とヘイトスピーチデータセットであるEkoHateを開発した。
我々のデータセットは、公開されている3つの攻撃的データセットに適切に転送されていることを示す。
- 参考スコア(独自算出の注目度): 5.398017919144532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nigerians have a notable online presence and actively discuss political and topical matters. This was particularly evident throughout the 2023 general election, where Twitter was used for campaigning, fact-checking and verification, and even positive and negative discourse. However, little or none has been done in the detection of abusive language and hate speech in Nigeria. In this paper, we curated code-switched Twitter data directed at three musketeers of the governorship election on the most populous and economically vibrant state in Nigeria; Lagos state, with the view to detect offensive speech in political discussions. We developed EkoHate -- an abusive language and hate speech dataset for political discussions between the three candidates and their followers using a binary (normal vs offensive) and fine-grained four-label annotation scheme. We analysed our dataset and provided an empirical evaluation of state-of-the-art methods across both supervised and cross-lingual transfer learning settings. In the supervised setting, our evaluation results in both binary and four-label annotation schemes show that we can achieve 95.1 and 70.3 F1 points respectively. Furthermore, we show that our dataset adequately transfers very well to three publicly available offensive datasets (OLID, HateUS2020, and FountaHate), generalizing to political discussions in other regions like the US.
- Abstract(参考訳): ナイジェリア人は著名なオンライン存在であり、政治や話題の問題を積極的に議論している。
これは2023年の総選挙で特に顕著で、Twitterは選挙運動、事実確認、検証、さらには肯定的かつ否定的な発言に使われた。
しかし、ナイジェリアにおける虐待的な言語や憎悪の言葉の検出は、ほとんど、あるいは全く行われていない。
本稿では、ナイジェリアで最も人口が多く、経済的に活発な州であるラゴス州で、州知事選挙の3人のマスケターに向け、コード変更されたTwitterデータを収集した。
EkoHateは、3人の候補者とそのフォロワー間の政治的議論のための虐待的言語でヘイトスピーチデータセットで、バイナリ(正規対攻撃)ときめ細かい4ラベルのアノテーションスキームを使って開発しました。
我々は、データセットを分析し、教師付きおよび言語間移動学習設定の両方で最先端の手法を実証的に評価した。
教師付き設定では,2進法と4進法の両方で評価した結果,それぞれ95.1点,70.3点のF1点を達成できた。
さらに、我々のデータセットは、米国などの他の地域での政治的議論に一般化した、公開可能な3つの攻撃的データセット(OLID、HateUS2020、FontaHate)に適切に転送されていることを示す。
関連論文リスト
- Representation Bias in Political Sample Simulations with Large Language Models [54.48283690603358]
本研究は,大規模言語モデルを用いた政治サンプルのシミュレーションにおけるバイアスの同定と定量化を目的とする。
GPT-3.5-Turboモデルを用いて、米国選挙研究、ドイツ縦割り選挙研究、ズオビアオデータセット、中国家族パネル研究のデータを活用する。
論文 参考訳(メタデータ) (2024-07-16T05:52:26Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Electoral Agitation Data Set: The Use Case of the Polish Election [3.671887117122512]
ポーランド語における選挙の扇動を検出するための最初の公開データセットを提示する。
これには、法的に条件付けされた4つのカテゴリにタグ付けされた6,112人の人手によるツイートが含まれている。
新たに作成されたデータセットは、HerBERTと呼ばれるポーランド語モデルの微調整に使用された。
論文 参考訳(メタデータ) (2023-07-13T18:14:43Z) - Uncovering Political Hate Speech During Indian Election Campaign: A New
Low-Resource Dataset and Baselines [3.3228144010758593]
IEHateデータセットには、2021年11月1日から2022年3月9日までのインド議会選挙に関連する11,457件のヒンディー語ツイートが含まれている。
機械学習、ディープラーニング、トランスフォーマーベースのアルゴリズムを用いてデータセットをベンチマークする。
特に、アルゴリズムよりも人間評価のスコアが比較的高いことは、効果的なヘイトスピーチのモデレーションに人間と自動化の両方のアプローチを活用することの重要性を強調している。
論文 参考訳(メタデータ) (2023-06-26T15:17:54Z) - The Face of Populism: Examining Differences in Facial Emotional
Expressions of Political Leaders Using Machine Learning [57.70351255180495]
深層学習に基づくコンピュータビジョンのアルゴリズムを、15カ国の政治指導者を描いた220本のYouTubeビデオのサンプルに適用する。
ポピュリスト・レトリックの度合いが異なるリーダー群間での否定的感情の平均スコアの統計的に有意な差を観察した。
論文 参考訳(メタデータ) (2023-04-19T18:32:49Z) - Whose Language Counts as High Quality? Measuring Language Ideologies in
Text Data Selection [83.3580786484122]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。
高品質なコーパスを特権化するには言語イデオロギーが必要です。
論文 参考訳(メタデータ) (2022-01-25T17:20:04Z) - Emojis as Anchors to Detect Arabic Offensive Language and Hate Speech [6.1875341699258595]
攻撃的・憎悪的なツイートを大量に収集する汎用的な言語に依存しない手法を提案する。
絵文字に埋め込まれた言語外情報を利用して、多くの攻撃的なツイートを収集します。
論文 参考訳(メタデータ) (2022-01-18T03:56:57Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Hate versus Politics: Detection of Hate against Policy makers in Italian
tweets [0.6289422225292998]
本稿では,イタリアにおけるTwitterの政策立案者に対するヘイトスピーチの分類問題について論じる。
1264ツイートを収集,注釈し,アノテータ間の不一致事例を調査し,ドメイン内およびドメイン間ヘイトスピーチ分類を行った。
我々は、ROC AUC 0.83の性能を達成し、最も予測可能な属性を分析し、また、反政治家と反移民ドメインで異なる言語特徴を見出した。
論文 参考訳(メタデータ) (2021-07-12T12:24:45Z) - Exploring Polarization of Users Behavior on Twitter During the 2019
South American Protests [15.065938163384235]
われわれは、2019年に南アメリカのいくつかの国を麻痺させた抗議活動について、異なる文脈でTwitter上で偏極を探っている。
政治家のツイートやハッシュタグキャンペーンに対するユーザの支持を(反対かにかかわらず)抗議に対する明確なスタンスで活用することにより、何百万人ものユーザーによる弱いラベル付きスタンスデータセットを構築します。
イベント中の「フィルターバブル」現象の実証的証拠は、ユーザベースがスタンスの観点から均質であるだけでなく、異なるクラスタのメディアからユーザが移行する確率も低いことを示すものである。
論文 参考訳(メタデータ) (2021-04-05T07:13:18Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。