論文の概要: Machine Learning-based Automatic Annotation and Detection of COVID-19
Fake News
- arxiv url: http://arxiv.org/abs/2209.03162v1
- Date: Wed, 7 Sep 2022 13:55:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 13:18:08.595540
- Title: Machine Learning-based Automatic Annotation and Detection of COVID-19
Fake News
- Title(参考訳): 機械学習によるCOVID-19フェイクニュースの自動アノテーションと検出
- Authors: Mohammad Majid Akhtar, Bibhas Sharma, Ishan Karunanayake, Rahat
Masood, Muhammad Ikram, Salil S. Kanhere
- Abstract要約: 新型コロナウイルス(COVID-19)は世界のあらゆる地域に影響を与えるが、感染の誤報はウイルスよりも速く移動した。
既存の作業は、拡散の触媒として働くボットの存在を無視する。
そこで本稿では,Twitterデータセット上で事実確認文をラベル付けする手法を提案する。
- 参考スコア(独自算出の注目度): 8.020736472947581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: COVID-19 impacted every part of the world, although the misinformation about
the outbreak traveled faster than the virus. Misinformation spread through
online social networks (OSN) often misled people from following correct medical
practices. In particular, OSN bots have been a primary source of disseminating
false information and initiating cyber propaganda. Existing work neglects the
presence of bots that act as a catalyst in the spread and focuses on fake news
detection in 'articles shared in posts' rather than the post (textual) content.
Most work on misinformation detection uses manually labeled datasets that are
hard to scale for building their predictive models. In this research, we
overcome this challenge of data scarcity by proposing an automated approach for
labeling data using verified fact-checked statements on a Twitter dataset. In
addition, we combine textual features with user-level features (such as
followers count and friends count) and tweet-level features (such as number of
mentions, hashtags and urls in a tweet) to act as additional indicators to
detect misinformation. Moreover, we analyzed the presence of bots in tweets and
show that bots change their behavior over time and are most active during the
misinformation campaign. We collected 10.22 Million COVID-19 related tweets and
used our annotation model to build an extensive and original ground truth
dataset for classification purposes. We utilize various machine learning models
to accurately detect misinformation and our best classification model achieves
precision (82%), recall (96%), and false positive rate (3.58%). Also, our bot
analysis indicates that bots generated approximately 10% of misinformation
tweets. Our methodology results in substantial exposure of false information,
thus improving the trustworthiness of information disseminated through social
media platforms.
- Abstract(参考訳): 新型コロナウイルス(COVID-19)は世界のあらゆる地域に影響を与えるが、感染の誤報はウイルスよりも速く移動した。
オンラインソーシャルネットワーク(OSN)を通じて拡散した誤報は、しばしば人々が正しい医療実践に従うことを誤解した。
特に、OSNボットは偽情報を拡散し、サイバープロパガンダを開始する主要な情報源である。
既存の作業は、拡散の触媒として機能するボットの存在を無視し、ポスト(テキスト)コンテンツではなく「ポストで共有されたアーティクル」における偽ニュース検出に焦点を当てている。
誤情報検出のほとんどは、予測モデルを構築するのにスケールしにくい手作業によるラベル付きデータセットを使用する。
本研究では,Twitterデータセット上の事実確認文を用いたラベル付けの自動手法を提案することにより,データ不足というこの課題を克服する。
さらに、テキスト機能とユーザーレベルの機能(フォロワー数や友人数など)と、ツイートレベルの機能(言及数、ハッシュタグ、ツイート中のURLなど)を組み合わせて、誤情報を検出するための追加の指標として機能する。
さらに,ツイート中のボットの存在を分析し,ボットの行動が時間とともに変化し,誤報キャンペーンにおいて最も活発であることを示す。
当社は1022万件のcovid-19関連ツイートを収集し、アノテーションモデルを使用して分類目的の広範囲でオリジナルな事実データセットを構築しました。
様々な機械学習モデルを用いて誤情報を正確に検出し,最良の分類モデルは精度(82%),リコール(96%),偽陽性率(3.58%)を達成する。
また,ボット分析の結果,誤情報ツイートの約10%をボットが生成していることがわかった。
提案手法は, 偽情報の露呈によって, ソーシャルメディアプラットフォームを通じて拡散される情報の信頼性を向上させる。
関連論文リスト
- BotArtist: Twitter bot detection Machine Learning model based on Twitter
suspension [50.4515540006269]
われわれは、最近のロシアとウクライナの戦争に関する900万人のユーザーから生まれた、Twitter上の難解で多言語的なソーシャル談話のデータセットを集めている。
我々は最先端のXGBoostモデルを用いて,ボット検出のための新しいMLモデルを構築した。
Botometerと比較して、我々の手法は、2つの実ケースシナリオデータセットよりも平均11%高いROC-AUCスコアを達成する。
論文 参考訳(メタデータ) (2023-05-31T09:12:35Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on
Social Media [53.51665032295087]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - TwiBot-22: Towards Graph-Based Twitter Bot Detection [39.359825215347655]
TwiBot-22はグラフベースのTwitterボット検出ベンチマークで、これまでで最大のデータセットを示している。
35の代表的なTwitterボット検出ベースラインを再実装し、TwiBot-22を含む9つのデータセットで評価します。
さらなる研究を容易にするため、実装済みのコードとデータセットをTwiBot-22評価フレームワークに統合する。
論文 参考訳(メタデータ) (2022-06-09T15:23:37Z) - Faking Fake News for Real Fake News Detection: Propaganda-loaded
Training Data Generation [105.20743048379387]
提案手法は,人間によるプロパガンダのスタイルや戦略から情報を得た学習例を生成するための新しいフレームワークである。
具体的には、生成した記事の有効性を確保するために、自然言語推論によって導かれる自己臨界シーケンストレーニングを行う。
実験の結果、PropaNewsでトレーニングされた偽ニュース検知器は、2つの公開データセットで3.62~7.69%のF1スコアで人書きの偽情報を検出するのに優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-10T14:24:19Z) - Twitter-COMMs: Detecting Climate, COVID, and Military Multimodal
Misinformation [83.2079454464572]
本稿では,DARPAセマンティック・フォレスティクス(SemaFor)プログラムにおける画像テキスト不整合検出へのアプローチについて述べる。
Twitter-COMMsは大規模マルチモーダルデータセットで、884万のツイートが気候変動、新型コロナウイルス、軍用車両のトピックに関連する。
我々は、最先端のCLIPモデルに基づいて、自動生成されたランダムとハードのネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガ
論文 参考訳(メタデータ) (2021-12-16T03:37:20Z) - Identification of Twitter Bots based on an Explainable ML Framework: the
US 2020 Elections Case Study [72.61531092316092]
本稿では,ラベル付きTwitterデータに基づくTwitterボット識別システムの設計に焦点をあてる。
Supervised Machine Learning (ML)フレームワークは、Extreme Gradient Boosting (XGBoost)アルゴリズムを用いて採用されている。
また、MLモデルの予測を説明するためにShapley Additive Explanations (SHAP)をデプロイした。
論文 参考訳(メタデータ) (2021-12-08T14:12:24Z) - Misleading the Covid-19 vaccination discourse on Twitter: An exploratory
study of infodemic around the pandemic [0.45593531937154413]
我々は7ヶ月(2020年9月~2021年3月)のコビッドウイルスワクチン接種に関連する中規模のツイートコーパス(20万件)を収集する。
Transfer Learningのアプローチに従えば、事前訓練されたTransformerベースのXLNetモデルを使用して、ツイートをミスリーディングまたは非ミスリーディングに分類する。
我々は、自然に誤解を招くコーパスのツイートの特徴と非誤解を招くツイートの特徴を調査・対比するためにこの手法を構築した。
いくつかのMLモデルは、最大90%の精度で予測に使用され、各特徴の重要性は、SHAP Explainable AI (X)を用いて説明される。
論文 参考訳(メタデータ) (2021-08-16T17:02:18Z) - Combining exogenous and endogenous signals with a semi-supervised
co-attention network for early detection of COVID-19 fake tweets [14.771202995527315]
新型コロナウイルス(COVID-19)の間、誤報のあるツイートは早期に警告され、中立化され、被害を軽減する必要がある。
偽ニュースを早期に検出する既存の方法のほとんどは、大きなラベル付きツイートに十分な伝搬情報を持っていると仮定している。
我々は、ツイートに関連する内因性および内因性信号を活用する新しい早期検出モデルENDEMICを提案する。
論文 参考訳(メタデータ) (2021-04-12T10:01:44Z) - Evaluating Deep Learning Approaches for Covid19 Fake News Detection [0.0]
データマイニングの観点から、偽ニュース検出の自動化技術を検討します。
Contraint@AAAI 2021 Covid-19 Fakeニュース検出データセットで異なる教師付きテキスト分類アルゴリズムを評価します。
Covid-19 Fakeニュース検出データセットで98.41%の最高の精度を報告する。
論文 参考訳(メタデータ) (2021-01-11T16:39:03Z) - Predicting Misinformation and Engagement in COVID-19 Twitter Discourse
in the First Months of the Outbreak [1.2059055685264957]
新型コロナウイルス(COVID-19)関連ツイート50万件近くを調べ、ボット行動とエンゲージメントの機能として誤情報を理解する。
実際のユーザーは事実と誤情報の両方をツイートし、ボットは偽情報よりも比例的にツイートしていることがわかった。
論文 参考訳(メタデータ) (2020-12-03T18:47:34Z) - Detection of Novel Social Bots by Ensembles of Specialized Classifiers [60.63582690037839]
悪意ある俳優は、社会ボットとして知られるアルゴリズムによって部分的に制御される不正なソーシャルメディアアカウントを作成し、誤情報を広め、オンラインでの議論を扇動する。
異なるタイプのボットが、異なる行動特徴によって特徴づけられることを示す。
本稿では,ボットのクラスごとに専門的な分類器を訓練し,それらの決定を最大ルールで組み合わせる,教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-06-11T22:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。