論文の概要: AraCOVID19-MFH: Arabic COVID-19 Multi-label Fake News and Hate Speech
Detection Dataset
- arxiv url: http://arxiv.org/abs/2105.03143v1
- Date: Fri, 7 May 2021 09:52:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 12:30:07.740913
- Title: AraCOVID19-MFH: Arabic COVID-19 Multi-label Fake News and Hate Speech
Detection Dataset
- Title(参考訳): AraCOVID19-MFH: アラビア語のマルチラベルフェイクニュースとヘイトスピーチ検出データセット
- Authors: Mohamed Seghir Hadj Ameur, Hassina Aliane
- Abstract要約: 「AraCOVID19-MFH」は、アラビア・COVID-19の偽ニュースとヘイトスピーチ検出データセットを手動で注釈付けしたものである。
当社のデータセットには、10の異なるラベルで注釈付けされた10,828のアラビア語ツイートが含まれています。
ヘイトスピーチの検出、意見/ニュースの分類、方言の識別、その他多くのタスクにも使用できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Along with the COVID-19 pandemic, an "infodemic" of false and misleading
information has emerged and has complicated the COVID-19 response efforts.
Social networking sites such as Facebook and Twitter have contributed largely
to the spread of rumors, conspiracy theories, hate, xenophobia, racism, and
prejudice. To combat the spread of fake news, researchers around the world have
and are still making considerable efforts to build and share COVID-19 related
research articles, models, and datasets. This paper releases "AraCOVID19-MFH" a
manually annotated multi-label Arabic COVID-19 fake news and hate speech
detection dataset. Our dataset contains 10,828 Arabic tweets annotated with 10
different labels. The labels have been designed to consider some aspects
relevant to the fact-checking task, such as the tweet's check worthiness,
positivity/negativity, and factuality. To confirm our annotated dataset's
practical utility, we used it to train and evaluate several classification
models and reported the obtained results. Though the dataset is mainly designed
for fake news detection, it can also be used for hate speech detection,
opinion/news classification, dialect identification, and many other tasks.
- Abstract(参考訳): 新型コロナウイルス(COVID-19)のパンデミックに加え、偽情報や誤解を招く情報の「偽造」が出現し、対応の取り組みが複雑化している。
FacebookやTwitterのようなソーシャルネットワークサイトは、噂や陰謀説、憎悪、異端者、人種差別、偏見の拡散に大きく貢献している。
偽ニュースの拡散に対抗すべく、世界中の研究者は、新型コロナウイルス関連の研究論文、モデル、データセットの構築と共有にかなりの努力を続けている。
本稿は、手動で注釈付きマルチラベルのアラビアウイルス偽ニュースとヘイトスピーチ検出データセット「AraCOVID19-MFH」をリリースする。
当社のデータセットには10のラベルで注釈付けされた10,828のアラビア語ツイートが含まれています。
ラベルは、ツイートのチェック価値、肯定性と否定性、事実性など、ファクトチェックタスクに関連するいくつかの側面を考慮するように設計されている。
注釈付きデータセットの実用性を確認するために,いくつかの分類モデルの訓練と評価を行い,得られた結果を報告する。
データセットは主に偽ニュースの検出用に設計されているが、ヘイトスピーチの検出、意見/ニュース分類、方言識別、その他多くのタスクにも使用できる。
関連論文リスト
- Machine Learning-based Automatic Annotation and Detection of COVID-19
Fake News [8.020736472947581]
新型コロナウイルス(COVID-19)は世界のあらゆる地域に影響を与えるが、感染の誤報はウイルスよりも速く移動した。
既存の作業は、拡散の触媒として働くボットの存在を無視する。
そこで本稿では,Twitterデータセット上で事実確認文をラベル付けする手法を提案する。
論文 参考訳(メタデータ) (2022-09-07T13:55:59Z) - UrduFake@FIRE2021: Shared Track on Fake News Identification in Urdu [55.41644538483948]
本研究は、ウルドゥー語で偽ニュースを検出するために、UrduFake@FIRE2021と名付けられた2番目の共有タスクを報告した。
提案システムは、様々なカウントベースの特徴に基づいており、異なる分類器とニューラルネットワークアーキテクチャを使用していた。
勾配降下(SGD)アルゴリズムは他の分類器よりも優れ、0.679Fスコアを達成した。
論文 参考訳(メタデータ) (2022-07-11T19:15:04Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Cross-lingual COVID-19 Fake News Detection [54.125563009333995]
低リソース言語(中国語)における新型コロナウイルスの誤報を検出するための最初の試みは、高リソース言語(英語)における事実チェックされたニュースのみを用いて行われる。
そこで我々は、クロスランガルなニュースボディテキストを共同でエンコードし、ニュースコンテンツをキャプチャするCrossFakeというディープラーニングフレームワークを提案する。
実験結果から,クロスランガル環境下でのCrossFakeの有効性が示された。
論文 参考訳(メタデータ) (2021-10-13T04:44:02Z) - Half-Truth: A Partially Fake Audio Detection Dataset [60.08010668752466]
本稿では半真性音声検出(HAD)のためのデータセットを開発する。
HADデータセットの部分的に偽の音声は、発話中の数単語だけを変更する。
我々は、偽のユトランを検知するだけでなく、このデータセットを用いて音声中の操作された領域をローカライズする。
論文 参考訳(メタデータ) (2021-04-08T08:57:13Z) - Hostility Detection and Covid-19 Fake News Detection in Social Media [1.3499391168620467]
我々は,Hindi BERTとHindi FastTextモデルを用いて,乱用言語検出と特徴抽出を併用したモデルを構築した。
また、英語のツイートでCovid-19に関連する偽ニュースを識別するためのモデルを構築しています。
論文 参考訳(メタデータ) (2021-01-15T03:24:36Z) - Evaluating Deep Learning Approaches for Covid19 Fake News Detection [0.0]
データマイニングの観点から、偽ニュース検出の自動化技術を検討します。
Contraint@AAAI 2021 Covid-19 Fakeニュース検出データセットで異なる教師付きテキスト分類アルゴリズムを評価します。
Covid-19 Fakeニュース検出データセットで98.41%の最高の精度を報告する。
論文 参考訳(メタデータ) (2021-01-11T16:39:03Z) - Eating Garlic Prevents COVID-19 Infection: Detecting Misinformation on
the Arabic Content of Twitter [0.23624125155742054]
私たちは、covid-19の誤った情報に関連する大きなアラビア語データセットを構築し、そのツイートを2つのカテゴリに分類します。
単語埋め込みや単語頻度など、さまざまな機能を備えた8つの従来型および深層機械学習モデルを適用する。
実験では、曲線下の領域(AUC)を最適化することでモデルのパフォーマンスが向上し、Extreme Gradient Boosting(XGBoost)は、オンラインでCOVID-19の誤情報を検出する最高精度を示します。
論文 参考訳(メタデータ) (2021-01-09T22:52:21Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Misinformation Has High Perplexity [55.47422012881148]
疑似クレームを教師なしの方法でデバンクするために, 難易度を活用することを提案する。
まず,これらの主張に類似した文に基づいて,科学的およびニュースソースから信頼性のある証拠を抽出する。
第2に,抽出したエビデンスを言語モデルにプライマリし,難易度スコアに基づいて与えられたクレームの正当性を評価する。
論文 参考訳(メタデータ) (2020-06-08T15:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。