論文の概要: An Annotated Corpus of Arabic Tweets for Hate Speech Analysis
- arxiv url: http://arxiv.org/abs/2505.11969v2
- Date: Fri, 23 May 2025 02:43:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 13:31:15.757726
- Title: An Annotated Corpus of Arabic Tweets for Hate Speech Analysis
- Title(参考訳): ヘイトスピーチ分析のための注釈付きアラビア語ツイートコーパス
- Authors: Wajdi Zaghouani, Md. Rafiul Biswas,
- Abstract要約: 本研究では,アラビア語におけるマルチラベルヘイトスピーチデータセットを提案する。
われわれは1万のアラビア語ツイートを集め、各ツイートに攻撃的な内容を含むか否かにかかわらず注釈を付けた。
- 参考スコア(独自算出の注目度): 0.021665899581403608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying hate speech content in the Arabic language is challenging due to the rich quality of dialectal variations. This study introduces a multilabel hate speech dataset in the Arabic language. We have collected 10000 Arabic tweets and annotated each tweet, whether it contains offensive content or not. If a text contains offensive content, we further classify it into different hate speech targets such as religion, gender, politics, ethnicity, origin, and others. A text can contain either single or multiple targets. Multiple annotators are involved in the data annotation task. We calculated the inter-annotator agreement, which was reported to be 0.86 for offensive content and 0.71 for multiple hate speech targets. Finally, we evaluated the data annotation task by employing a different transformers-based model in which AraBERTv2 outperformed with a micro-F1 score of 0.7865 and an accuracy of 0.786.
- Abstract(参考訳): アラビア語におけるヘイトスピーチの内容を特定することは、方言の多様性の豊かな品質のために困難である。
本研究では,アラビア語におけるマルチラベルヘイトスピーチデータセットを提案する。
われわれは1万のアラビア語ツイートを集め、各ツイートに攻撃的な内容を含むか否かにかかわらず注釈を付けた。
攻撃的な内容を含むテキストでは、宗教、性別、政治、民族、起源など、異なるヘイトスピーチターゲットに分類する。
テキストは、単一のターゲットまたは複数のターゲットを含むことができる。
複数のアノテーションがデータアノテーションタスクに関与している。
攻撃内容は0.86、ヘイトスピーチターゲットは0.71と報告されたアノテータ間合意を算出した。
最後に,AraBERTv2のマイクロF1スコア0.7865と精度0.786の異なるトランスフォーマーモデルを用いてデータアノテーションタスクの評価を行った。
関連論文リスト
- A Federated Approach to Few-Shot Hate Speech Detection for Marginalized Communities [43.37824420609252]
ネット上でのヘイトスピーチは、辺境化コミュニティにとって未検討の課題だ。
本稿では,オンラインヘイトスピーチから身を守るためのプライバシ保護ツールを,疎外化コミュニティに提供することを目的とする。
論文 参考訳(メタデータ) (2024-12-06T11:00:05Z) - Hate Speech Detection and Classification in Amharic Text with Deep Learning [4.834669033093363]
我々は、テキストをヘイトスピーチの4つのカテゴリに分類し、検出できるアムハラヘイトスピーチデータとSBi-LSTMディープラーニングモデルを開発した。
われわれは5k Amharicのソーシャルメディア投稿とコメントデータを4つのカテゴリに分類した。
このモデルは94.8F1スコアのパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-07T15:46:45Z) - Exploring Cross-Cultural Differences in English Hate Speech Annotations: From Dataset Construction to Analysis [44.17106903728264]
ほとんどのヘイトスピーチデータセットは、単一の言語における文化的多様性を無視している。
そこで本研究では,CRoss文化の英語Hate音声データセットであるCREHateを紹介する。
CREHateのポストの56.2%のみが全国でコンセンサスを達成しており、ペアのラベル差が最も高いのは26%である。
論文 参考訳(メタデータ) (2023-08-31T13:14:47Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文 参考訳(メタデータ) (2023-02-17T15:40:12Z) - Emojis as Anchors to Detect Arabic Offensive Language and Hate Speech [6.1875341699258595]
攻撃的・憎悪的なツイートを大量に収集する汎用的な言語に依存しない手法を提案する。
絵文字に埋め込まれた言語外情報を利用して、多くの攻撃的なツイートを収集します。
論文 参考訳(メタデータ) (2022-01-18T03:56:57Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - One to rule them all: Towards Joint Indic Language Hate Speech Detection [7.296361860015606]
本稿では、最先端のトランスフォーマー言語モデルを用いて、ヘイトや攻撃的な音声検出を共同で学習する多言語アーキテクチャを提案する。
提案したテストコーパスでは,サブタスク1AのマクロF1スコアが0.7996,0.7748,0.8651,サブタスク1Bのきめ細かい分類において0.6268,0.5603となる。
論文 参考訳(メタデータ) (2021-09-28T13:30:00Z) - Hate Speech Detection in Roman Urdu [1.6436293069942314]
この研究は、ローマ・ウルドゥー語文におけるヘイトスピーチ検出の研究を初めて行った。
われわれは9万件以上のツイートを削除し、手動で解析して5000件のローマ・ウルドゥーのツイートを特定した。
我々は,ガイドライン開発に反復的アプローチを採用し,Hate Speech Roman Urdu 2020 corpus の生成に利用した。
論文 参考訳(メタデータ) (2021-08-05T19:49:46Z) - Leveraging Multilingual Transformers for Hate Speech Detection [11.306581296760864]
我々は,アートトランスフォーマー言語モデルを用いて,多言語環境でヘイトスピーチを識別する。
学習済みの多言語トランスフォーマーベースのテキストエンコーダをベースとして,複数の言語からヘイトスピーチを識別し,分類することができる。
論文 参考訳(メタデータ) (2021-01-08T20:23:50Z) - Demoting Racial Bias in Hate Speech Detection [39.376886409461775]
現在のヘイトスピーチデータセットには、アノテーターの毒性に対する認識とアフリカ系アメリカ人英語(AAE)の信号との間に相関がある。
本稿では,このバイアスを軽減するために,敵対的訓練を用いて,有害な文章の検出を学習するヘイトスピーチ分類器を導入する。
ヘイトスピーチデータセットとAEデータセットの実験結果から,本手法はヘイトスピーチ分類の性能を最小限に抑えつつ,AAEテキストの偽陽性率を大幅に低減できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-05-25T17:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。