論文の概要: Combat COVID-19 Infodemic Using Explainable Natural Language Processing
Models
- arxiv url: http://arxiv.org/abs/2103.00747v1
- Date: Mon, 1 Mar 2021 04:28:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 05:26:24.419554
- Title: Combat COVID-19 Infodemic Using Explainable Natural Language Processing
Models
- Title(参考訳): 自然言語処理モデルを用いたcovid-19インフォデミック対策
- Authors: Jackie Ayoub, X. Jessie Yang, Feng Zhou
- Abstract要約: 新型コロナの誤報対策として,DistilBERTとSHAPに基づく説明可能な自然言語処理モデルを提案する。
その結果は、新型コロナウイルスの誤報の検出と公衆の信頼向上に良い影響を与えました。
- 参考スコア(独自算出の注目度): 15.782463163357976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Misinformation of COVID-19 is prevalent on social media as the pandemic
unfolds, and the associated risks are extremely high. Thus, it is critical to
detect and combat such misinformation. Recently, deep learning models using
natural language processing techniques, such as BERT (Bidirectional Encoder
Representations from Transformers), have achieved great successes in detecting
misinformation. In this paper, we proposed an explainable natural language
processing model based on DistilBERT and SHAP (Shapley Additive exPlanations)
to combat misinformation about COVID-19 due to their efficiency and
effectiveness. First, we collected a dataset of 984 claims about COVID-19 with
fact checking. By augmenting the data using back-translation, we doubled the
sample size of the dataset and the DistilBERT model was able to obtain good
performance (accuracy: 0.972; areas under the curve: 0.993) in detecting
misinformation about COVID-19. Our model was also tested on a larger dataset
for AAAI2021 - COVID-19 Fake News Detection Shared Task and obtained good
performance (accuracy: 0.938; areas under the curve: 0.985). The performance on
both datasets was better than traditional machine learning models. Second, in
order to boost public trust in model prediction, we employed SHAP to improve
model explainability, which was further evaluated using a between-subjects
experiment with three conditions, i.e., text (T), text+SHAP explanation (TSE),
and text+SHAP explanation+source and evidence (TSESE). The participants were
significantly more likely to trust and share information related to COVID-19 in
the TSE and TSESE conditions than in the T condition. Our results provided good
implications in detecting misinformation about COVID-19 and improving public
trust.
- Abstract(参考訳): 新型コロナウイルス(COVID-19)の誤報は、パンデミックが広がるにつれてソーシャルメディアに広まり、関連するリスクは非常に高い。
したがって、そのような誤情報を検出して対処することは重要です。
近年,BERT (Bidirectional Encoder Representations from Transformers) などの自然言語処理技術を用いた深層学習モデルが,誤情報検出に成功している。
本稿では,DistilBERT と SHAP (Shapley Additive exPlanations) に基づく自然言語処理モデルを提案し,その効率と有効性から,新型コロナウイルスの誤報に対処する。
まず、事実チェックでcovid-19に関する984件の主張のデータセットを収集しました。
バックトランスレーションを用いてデータを増大させることで、データセットのサンプルサイズを2倍にし、DistilBERTモデルは優れたパフォーマンスを得ることができた(精度:0.972;曲線下の領域:0.993)。
また,AAAI2021(COVID-19 Fake News Detection Shared Task)の大規模データセットを用いて,良好な性能(精度:0.938,曲線下面積:0.985)を得た。
両方のデータセットのパフォーマンスは、従来の機械学習モデルよりも良かった。
第2に,モデル予測に対する一般の信頼を高めるため,モデル説明可能性の向上のためにSHAPを用いて,テキスト(T),テキスト+SHAP説明(TSE),テキスト+SHAP説明+ソースとエビデンス(TSESE)の3つの条件を用いて,オブジェクト間実験によりさらに評価を行った。
参加者は、TSEおよびTSESEの条件において、T条件よりも、COVID-19に関連する情報を信頼し、共有する可能性が大幅に高かった。
その結果は、新型コロナウイルスの誤報の検出と公衆の信頼向上に良い影響を与えました。
関連論文リスト
- A Comparative Study of Hybrid Models in Health Misinformation Text Classification [0.43695508295565777]
本研究では、オンラインソーシャルネットワーク(OSN)上での新型コロナウイルス関連誤情報検出における機械学習(ML)モデルとディープラーニング(DL)モデルの有効性を評価する。
本研究は, 従来のMLアルゴリズムよりも, DLおよびハイブリッドDLモデルの方が, OSN上の新型コロナウイルスの誤情報を検出するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2024-10-08T19:43:37Z) - Developing a Multi-variate Prediction Model For COVID-19 From
Crowd-sourced Respiratory Voice Data [0.0]
音声記録データから新型コロナウイルスを識別する深層学習モデルを開発した。
私たちはCambridge COVID-19 Soundデータベースを使用し、4352人の参加者からクラウドソースされた893の音声サンプルを、COVID-19 Soundsアプリを通じて公開しています。
音声データに基づいて、COVID-19の症例を検出するためのディープラーニング分類モデルを構築した。
論文 参考訳(メタデータ) (2024-02-12T12:52:47Z) - Test-Time Adaptation Induces Stronger Accuracy and Agreement-on-the-Line [65.14099135546594]
最近のテスト時間適応 (TTA) 法は, モデルに非常に弱い相関関係を示すシフトであっても, ACL と AGL の傾向を大幅に強化する。
この結果から,TTAとAGLに基づく推定手法を組み合わせることで,より広い分布シフトの集合に対する高精度なモデルOOD性能を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-10-07T23:21:25Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - B-Learner: Quasi-Oracle Bounds on Heterogeneous Causal Effects Under
Hidden Confounding [51.74479522965712]
本稿では,B-Learnerと呼ばれるメタラーナーを提案する。
我々は、その推定が有効で、鋭く、効率的であることを証明し、既存の方法よりも一般的な条件下で構成推定器に対して準オーラル特性を持つことを示した。
論文 参考訳(メタデータ) (2023-04-20T18:07:19Z) - Two-Stage Classifier for COVID-19 Misinformation Detection Using BERT: a
Study on Indonesian Tweets [0.15229257192293202]
インドネシアでの新型コロナウイルスの誤情報検出に関する研究はいまだに少ない。
本研究では,ツイート誤報検出タスクに対して,IndoBERT事前学習言語モデルを用いた2段階分類モデルを提案する。
実験の結果、関連予測のためのBERTシーケンス分類器と誤情報検出のためのBi-LSTMの組み合わせは、87.02%の精度で他の機械学習モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-06-30T15:33:20Z) - Checkovid: A COVID-19 misinformation detection system on Twitter using
network and content mining perspectives [9.69596041242667]
新型コロナウイルス(COVID-19)パンデミックの間、ソーシャルメディアプラットフォームは社会的孤立と隔離のためにコミュニケーションするのに理想的だった。
この問題に対処するため、Twitterに2つのCOVID-19関連誤情報データセットを提示する。
機械学習アルゴリズムとNLP技術に基づくネットワークベースおよびコンテンツベースプロセスからなる誤情報検出システムを提案する。
論文 参考訳(メタデータ) (2021-07-20T20:58:23Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Deep learning-based COVID-19 pneumonia classification using chest CT
images: model generalizability [54.86482395312936]
深層学習(DL)分類モデルは、異なる国の3DCTデータセット上で、COVID-19陽性患者を特定するために訓練された。
我々は、データセットと72%の列車、8%の検証、20%のテストデータを組み合わせたDLベースの9つの同一分類モデルを訓練した。
複数のデータセットでトレーニングされ、トレーニングに使用されるデータセットの1つからテストセットで評価されたモデルは、よりよいパフォーマンスを示した。
論文 参考訳(メタデータ) (2021-02-18T21:14:52Z) - Model Generalization on COVID-19 Fake News Detection [41.03093888315081]
CONSTRAINT 2021(FakeNews-19)で提案された偽ニュース検出タスクの堅牢なモデルの実現を目指す。
新型コロナの偽ニュースの2つのテストセットでモデルを評価します。
論文 参考訳(メタデータ) (2021-01-11T12:23:41Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。