論文の概要: Eating Garlic Prevents COVID-19 Infection: Detecting Misinformation on
the Arabic Content of Twitter
- arxiv url: http://arxiv.org/abs/2101.05626v1
- Date: Sat, 9 Jan 2021 22:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 08:27:50.040019
- Title: Eating Garlic Prevents COVID-19 Infection: Detecting Misinformation on
the Arabic Content of Twitter
- Title(参考訳): ニンニクを食べると新型コロナウイルス感染が防げる―twitterのアラビア語コンテンツの誤情報検出
- Authors: Sarah Alqurashi, Btool Hamoui, Abdulaziz Alashaikh, Ahmad Alhindi,
Eisa Alanazi
- Abstract要約: 私たちは、covid-19の誤った情報に関連する大きなアラビア語データセットを構築し、そのツイートを2つのカテゴリに分類します。
単語埋め込みや単語頻度など、さまざまな機能を備えた8つの従来型および深層機械学習モデルを適用する。
実験では、曲線下の領域(AUC)を最適化することでモデルのパフォーマンスが向上し、Extreme Gradient Boosting(XGBoost)は、オンラインでCOVID-19の誤情報を検出する最高精度を示します。
- 参考スコア(独自算出の注目度): 0.23624125155742054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of social media content during the current pandemic provides
useful tools for disseminating information which has also become a root for
misinformation. Therefore, there is an urgent need for fact-checking and
effective techniques for detecting misinformation in social media. In this
work, we study the misinformation in the Arabic content of Twitter. We
construct a large Arabic dataset related to COVID-19 misinformation and
gold-annotate the tweets into two categories: misinformation or not. Then, we
apply eight different traditional and deep machine learning models, with
different features including word embeddings and word frequency. The word
embedding models (\textsc{FastText} and word2vec) exploit more than two million
Arabic tweets related to COVID-19. Experiments show that optimizing the area
under the curve (AUC) improves the models' performance and the Extreme Gradient
Boosting (XGBoost) presents the highest accuracy in detecting COVID-19
misinformation online.
- Abstract(参考訳): 現在のパンデミックにおけるソーシャルメディアコンテンツの急速な成長は、誤報の根源となった情報を広めるための有用なツールを提供する。
そのため,ソーシャルメディアにおける誤情報検出には,ファクトチェックや効果的な手法が必要である。
本研究では,twitterのアラビア語コンテンツにおける誤情報について検討する。
私たちは、covid-19の誤った情報に関連する大きなアラビア語データセットを構築し、そのツイートを2つのカテゴリに分類します。
次に、単語埋め込みや単語頻度など、さまざまな機能を備えた8つの伝統的および深層機械学習モデルを適用する。
単語埋め込みモデル(\textsc{fasttext} と word2vec)は、covid-19に関連する200万以上のアラビア語ツイートを活用している。
実験により、曲線(AUC)下の領域を最適化することでモデルの性能が向上し、エクストリーム・グラディエント・ブースティング(XGBoost)は、オンラインで新型コロナウイルスの誤報を検出する上で最も正確であることが示されている。
関連論文リスト
- Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - Machine Learning-based Automatic Annotation and Detection of COVID-19
Fake News [8.020736472947581]
新型コロナウイルス(COVID-19)は世界のあらゆる地域に影響を与えるが、感染の誤報はウイルスよりも速く移動した。
既存の作業は、拡散の触媒として働くボットの存在を無視する。
そこで本稿では,Twitterデータセット上で事実確認文をラベル付けする手法を提案する。
論文 参考訳(メタデータ) (2022-09-07T13:55:59Z) - Two-Stage Classifier for COVID-19 Misinformation Detection Using BERT: a
Study on Indonesian Tweets [0.15229257192293202]
インドネシアでの新型コロナウイルスの誤情報検出に関する研究はいまだに少ない。
本研究では,ツイート誤報検出タスクに対して,IndoBERT事前学習言語モデルを用いた2段階分類モデルを提案する。
実験の結果、関連予測のためのBERTシーケンス分類器と誤情報検出のためのBi-LSTMの組み合わせは、87.02%の精度で他の機械学習モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-06-30T15:33:20Z) - Twitter-COMMs: Detecting Climate, COVID, and Military Multimodal
Misinformation [83.2079454464572]
本稿では,DARPAセマンティック・フォレスティクス(SemaFor)プログラムにおける画像テキスト不整合検出へのアプローチについて述べる。
Twitter-COMMsは大規模マルチモーダルデータセットで、884万のツイートが気候変動、新型コロナウイルス、軍用車両のトピックに関連する。
我々は、最先端のCLIPモデルに基づいて、自動生成されたランダムとハードのネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガ
論文 参考訳(メタデータ) (2021-12-16T03:37:20Z) - Cross-lingual COVID-19 Fake News Detection [54.125563009333995]
低リソース言語(中国語)における新型コロナウイルスの誤報を検出するための最初の試みは、高リソース言語(英語)における事実チェックされたニュースのみを用いて行われる。
そこで我々は、クロスランガルなニュースボディテキストを共同でエンコードし、ニュースコンテンツをキャプチャするCrossFakeというディープラーニングフレームワークを提案する。
実験結果から,クロスランガル環境下でのCrossFakeの有効性が示された。
論文 参考訳(メタデータ) (2021-10-13T04:44:02Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - AraCOVID19-MFH: Arabic COVID-19 Multi-label Fake News and Hate Speech
Detection Dataset [0.0]
「AraCOVID19-MFH」は、アラビア・COVID-19の偽ニュースとヘイトスピーチ検出データセットを手動で注釈付けしたものである。
当社のデータセットには、10の異なるラベルで注釈付けされた10,828のアラビア語ツイートが含まれています。
ヘイトスピーチの検出、意見/ニュースの分類、方言の識別、その他多くのタスクにも使用できる。
論文 参考訳(メタデータ) (2021-05-07T09:52:44Z) - ArCorona: Analyzing Arabic Tweets in the Early Days of Coronavirus
(COVID-19) Pandemic [3.057212947792573]
我々は、新型コロナウイルスに関連するアラビア語のツイートを手動で注釈付けした最大のデータセットを提示する。
アノテーションガイドラインを記述し、データセットを分析し、効果的な機械学習とトランスフォーマーに基づく分類モデルを構築する。
論文 参考訳(メタデータ) (2020-12-02T19:05:25Z) - ArCOV19-Rumors: Arabic COVID-19 Twitter Dataset for Misinformation
Detection [6.688963029270579]
ArCOV19-Rumorsは、1月27日から2020年4月末までのクレームを含むツイートからなる誤情報検出のためのアラビア語のTwitterデータセットである。
本誌は138件の確認済みのクレームを、主に人気ファクトチェックサイトから収集し、それらのクレームに関連する9.4万件のツイートを特定した。
ツイートは、パンデミックで直面した主要な問題の一つである誤情報検出の研究を支援するために、正確さで手動で注釈付けされた。
論文 参考訳(メタデータ) (2020-10-17T11:21:40Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Misinformation Has High Perplexity [55.47422012881148]
疑似クレームを教師なしの方法でデバンクするために, 難易度を活用することを提案する。
まず,これらの主張に類似した文に基づいて,科学的およびニュースソースから信頼性のある証拠を抽出する。
第2に,抽出したエビデンスを言語モデルにプライマリし,難易度スコアに基づいて与えられたクレームの正当性を評価する。
論文 参考訳(メタデータ) (2020-06-08T15:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。