論文の概要: HERDPhobia: A Dataset for Hate Speech against Fulani in Nigeria
- arxiv url: http://arxiv.org/abs/2211.15262v1
- Date: Mon, 28 Nov 2022 12:30:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 17:36:29.024692
- Title: HERDPhobia: A Dataset for Hate Speech against Fulani in Nigeria
- Title(参考訳): HERDPhobia:ナイジェリアのフラーニに対するヘイトスピーチのデータセット
- Authors: Saminu Mohammad Aliyu, Gregory Maksha Wajiga, Muhammad Murtala,
Shamsuddeen Hassan Muhammad, Idris Abdulmumin, Ibrahim Said Ahmad
- Abstract要約: 本稿では,ナイジェリアのフラーニ群集における最初の注釈付きヘイトスピーチデータセットであるHERDPhobiaを紹介する。
本稿では、事前訓練された言語モデルを用いて、ツイートを憎悪か憎悪かのどちらかとして分類するベンチマーク実験を行う。
- 参考スコア(独自算出の注目度): 0.00815557531820863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social media platforms allow users to freely share their opinions about
issues or anything they feel like. However, they also make it easier to spread
hate and abusive content. The Fulani ethnic group has been the victim of this
unfortunate phenomenon. This paper introduces the HERDPhobia - the first
annotated hate speech dataset on Fulani herders in Nigeria - in three
languages: English, Nigerian-Pidgin, and Hausa. We present a benchmark
experiment using pre-trained languages models to classify the tweets as either
hateful or non-hateful. Our experiment shows that the XML-T model provides
better performance with 99.83% weighted F1. We released the dataset at
https://github.com/hausanlp/HERDPhobia for further research.
- Abstract(参考訳): ソーシャルメディアプラットフォームは、ユーザーが問題や自分が望むものについて自由に意見を共有できるようにする。
しかし、憎しみや虐待的なコンテンツを広めるのも容易だ。
フラーニ族はこの不幸な現象の犠牲者となっている。
本稿では,ナイジェリアのフラーニ牧草地における最初の注釈付きヘイトスピーチデータセットであるHERDPhobiaについて,英語,ナイジェリア・ピジン,ハウサの3言語で紹介する。
我々は,事前学習した言語モデルを用いて,ツイートを憎悪か非憎悪かのいずれかに分類するベンチマーク実験を行う。
我々の実験によると、XML-Tモデルは99.83%の重み付きF1でより良いパフォーマンスを提供する。
さらなる研究のために、データセットをhttps://github.com/hausanlp/HERDPhobiaでリリースしました。
関連論文リスト
- VocalTweets: Investigating Social Media Offensive Language Among Nigerian Musicians [0.14337588659482522]
VocalTweetsは、ナイジェリアの著名なミュージシャン12人のツイートからなる、コードスイッチと多言語データセットである。
私たちはHuggingFaceのベースであるTwitter-RoBERTaを使ってモデルをトレーニングし、F1スコアは74.5。
論文 参考訳(メタデータ) (2024-11-10T14:31:36Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文 参考訳(メタデータ) (2023-02-17T15:40:12Z) - L3Cube-MahaHate: A Tweet-based Marathi Hate Speech Detection Dataset and
BERT models [0.7874708385247353]
インドでは、マラーティ語は広く使われている言語の一つである。
本稿では,マラウイで最初のHate SpeechデータセットであるL3Cube-MahaHateを紹介する。
論文 参考訳(メタデータ) (2022-03-25T17:00:33Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Ceasing hate withMoH: Hate Speech Detection in Hindi-English
Code-Switched Language [2.9926023796813728]
本研究はヒンディー語・英語のコードスイッチング言語におけるヘイトスピーチの分析に焦点をあてる。
データ構造を含むため、Hindi の "Love" を意味する MoH または Map Only Hindi を開発した。
MoHパイプラインは言語識別で構成され、ローマ語からデヴァナガリ・ヒンディー語への翻訳は、ローマ語のヒンディー語の知識ベースを用いて行われる。
論文 参考訳(メタデータ) (2021-10-18T15:24:32Z) - Cross-lingual COVID-19 Fake News Detection [54.125563009333995]
低リソース言語(中国語)における新型コロナウイルスの誤報を検出するための最初の試みは、高リソース言語(英語)における事実チェックされたニュースのみを用いて行われる。
そこで我々は、クロスランガルなニュースボディテキストを共同でエンコードし、ニュースコンテンツをキャプチャするCrossFakeというディープラーニングフレームワークを提案する。
実験結果から,クロスランガル環境下でのCrossFakeの有効性が示された。
論文 参考訳(メタデータ) (2021-10-13T04:44:02Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z) - AraCOVID19-MFH: Arabic COVID-19 Multi-label Fake News and Hate Speech
Detection Dataset [0.0]
「AraCOVID19-MFH」は、アラビア・COVID-19の偽ニュースとヘイトスピーチ検出データセットを手動で注釈付けしたものである。
当社のデータセットには、10の異なるラベルで注釈付けされた10,828のアラビア語ツイートが含まれています。
ヘイトスピーチの検出、意見/ニュースの分類、方言の識別、その他多くのタスクにも使用できる。
論文 参考訳(メタデータ) (2021-05-07T09:52:44Z) - SICKNL: A Dataset for Dutch Natural Language Inference [2.944323057176686]
オランダ語で自然言語推論を対象とするデータセットSICK-NL(可読信号)を提案する。
SICK-NLは、Marelli等のSICKデータセットを翻訳して得られる。
(2014年)英語からオランダ語へ。
並列推論データセットを持つことで、単言語と多言語の両方のNLPモデルを英語とオランダ語で比較できる。
論文 参考訳(メタデータ) (2021-01-14T16:42:57Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。