論文の概要、ライセンス

# (参考訳) ソーシャルメディア上での偽ニュースの特定 [全文訳有]

Identifying COVID-19 Fake News in Social Media ( http://arxiv.org/abs/2101.11954v1 )

ライセンス: CC BY 4.0
Tathagata Raha, Vijayasaradhi Indurthi, Aayush Upadhyaya, Jeevesh Kataria, Pramud Bommakanti, Vikram Keswani, Vasudeva Varma(参考訳) ソーシャルメディアプラットフォームの発展により、誰もが簡単に情報にアクセスできるようになる。 ソーシャルメディアのユーザーは、世界中と簡単に情報を共有できる。 これは時にフェイクニュースの拡散を促し、望ましくない結果をもたらすことがある。 本研究では、新型コロナウイルスのパンデミックに関連する健康ニュースを本物または偽物として識別できるモデルを訓練する。 我々のモデルは98.64%のF1スコアを達成した。 我々のモデルはリーダーボードで2位となり、最初のポジションを非常に狭いマージン0.05%ポイントで追い詰めた。

The evolution of social media platforms have empowered everyone to access information easily. Social media users can easily share information with the rest of the world. This may sometimes encourage spread of fake news, which can result in undesirable consequences. In this work, we train models which can identify health news related to COVID-19 pandemic as real or fake. Our models achieve a high F1-score of 98.64%. Our models achieve second place on the leaderboard, tailing the first position with a very narrow margin 0.05% points.
公開日: Thu, 28 Jan 2021 12:12:50 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n a J 1 2 0 2 n a J 0.85
8 2 ] L C . 8 2 ] L C。 0.78
s c [ 1 v 4 5 9 1 1 sc [ 1 v 4 5 9 1 1 0.68
. 1 0 1 2 : v i X r a . 1 0 1 2 : v i X r a 0.85
Identifying COVID-19 Fake News in Social 新型コロナウイルスのフェイクニュースを社会で特定する 0.32
Media Tathagata Raha, Vijayasaradhi Indurthi, Aayush Upadhyaya, Jeevesh Kataria, メディア Tathagata Raha, Vijayasaradhi Indurthi, Aayush Upadhyaya, Jeevesh Kataria 0.79
Pramud Bommakanti, Vikram Keswani, and Vasudeva Varma Pramud Bommakanti, Vikram Keswani, Vasudeva Varma 0.73
Information Retrieval and Extraction Lab (iREL) 情報検索・抽出ラボ(iREL) 0.59
International Institute of Information Technology, Hyderabad ハイデラバード国際情報技術研究所 0.79
{tathagata.raha, vijayasaradhi.i}@research.iiit.ac.in ,{aayush.upadhyaya, jeevesh.kataria, pramud.bommakanti, vikram.keswani}@students.iiit.ac.in , {tathagata.raha, vijayasaradhi.i}@research.ac.in,{aayush.upadhyaya, jeevesh.kataria, pramud.bommakanti, vikram.keswani}@students.ac.in, 0.61
vv@iiit.ac.in vv@iiit.ac.in 0.59
Abstract. The evolution of social media platforms have empowered everyone to access information easily. 抽象。 ソーシャルメディアプラットフォームの発展により、誰もが簡単に情報にアクセスできるようになる。 0.67
Social media users can easily share information with the rest of the world. ソーシャルメディアのユーザーは、世界中と簡単に情報を共有できる。 0.76
This may sometimes encourage spread of fake news, which can result in undesirable consequences. これは時にフェイクニュースの拡散を促し、望ましくない結果をもたらすことがある。 0.66
In this work, we train models which can identify health news related to COVID-19 pandemic as real or fake. 本研究では、新型コロナウイルスのパンデミックに関連する健康ニュースを本物または偽物として識別できるモデルを訓練する。 0.48
Our models achieve a high F1-score of 98.64%. 我々のモデルは98.64%のF1スコアを達成した。 0.55
Our models achieve second place on the leaderboard, tailing the first position with a very narrow margin 0.05% points. 我々のモデルはリーダーボードで2位となり、最初のポジションを非常に狭いマージン0.05%ポイントで追い詰めた。 0.66
Keywords: fake-news · COVID-19 · social media. キーワード:偽ニュース・COVID-19・ソーシャルメディア。 0.64
1 Introduction Fake news is ubiquitous and is impacting all spheres of life. 1 はじめに 偽ニュースはユビキタスであり、あらゆる生命界に影響を与えている。 0.66
The impact of fake news is more felt especially when the fake news is related to the health of people, specifically relating to the COVID-19 pandemic. フェイクニュースの影響は、特に新型コロナウイルスのパンデミックに関連して、フェイクニュースが人々の健康に関連しているときにより感じられます。 0.63
Myths, rumours, unsolicited tips and unverified claims and advises related to COVID-19 can sometimes lead to loss of human life. 神話、噂、未解決のヒント、未確認の主張、そしてCOVID-19に関連する助言は、時には人間の命を失う可能性がある。 0.49
Factually incorrect advises can sometimes create false sense of health and might delay in getting the required medical help often aggravating the condition. 誤ったアドバイスは、時に誤った健康感覚を生じさせ、必要な医療支援を受けるのを遅らせる可能性がある。 0.65
Uninformed people can easily become victims of propaganda and has a huge impact on the society. 情報のない人々は容易にプロパガンダの犠牲者になり、社会に大きな影響を与えます。 0.65
Needless to say, identifying fake COVID health news is very important as it can save valuable human life. 言うまでもなく、偽のCOVID健康ニュースを識別することは、貴重な人間の命を救うことができるため、非常に重要です。 0.55
NLP has made a significant progress in recent times. NLPは近年大きな進歩を遂げています。 0.75
Transfer learning has been playing an important role in the areas of NLP research. トランスファーラーニングは、NLP研究の分野で重要な役割を果たしています。 0.71
With the introduction of novel architectures like Transformer, the field of NLP has been revolutionized. Transformerのような新しいアーキテクチャの導入により、NLPの分野は革命的になりました。 0.71
We use RoBERTa, a improved variation of BERT for identifying if the COVID health news is fake or real. RoBERTaは、新型コロナウイルスの健康ニュースが偽物か偽物かを識別するためにBERTの改良版である。 0.56
In this task, at first we have used different simple baseline models like naive bayes, linear classifier, boosting, bagging and SVM models to classify a tweet as fake or not. このタスクでは、最初は、ナイーブベイ、線形分類器、ブースト、バギング、SVMモデルなどの異なる単純なベースラインモデルを使用して、ツイートを偽物として分類しました。
訳抜け防止モード: このタスクでは、最初はnaive bayesのような異なる単純なベースラインモデルを使用していました。 線形分類器,ブースティング,バグング,svmモデル ツイートを偽物と分類する。
0.76
For getting the tweet embeddings, we have used tf-idf and word2vec. ツイートの埋め込みを得るために、tf-idfとword2vecを使いました。 0.64
As our advanced models, we have experimented with different kinds of transformers models like bert, roberta, electra, etc. 先進的なモデルとして、バート、ロベルタ、エレクトラなど、さまざまな種類のトランスフォーマーモデルを試しました。 0.73
英語(論文から抽出)日本語訳スコア
2 Raha et al., 2021 2 Raha et al., 2021 0.85
2 Background The task aims at identifying fake news related to COVID-19 in English language. 背景 このタスクは、covid-19に関連する偽ニュースを英語で識別することを目的としている。 0.40
Given a social media post, we need to classify it as a fake or a real categories. ソーシャルメディアの投稿を考えると、偽物または実際のカテゴリとして分類する必要があります。 0.71
The task here was to train machine learning models which can automatically identify posts related to COVID-19 pandemic as fake or real. ここでのタスクは、新型コロナウイルスのパンデミックに関連する投稿を自動的に偽物または本物として識別できる機械学習モデルのトレーニングでした。 0.49
These posts include posts from various social media platforms like Twitter, Facebook and Instagram. これらの投稿には、twitter、facebook、instagramなどのソーシャルメディアプラットフォームからの投稿が含まれる。 0.65
The task deals with these posts in English language, and specifically those posts which are related to the COVID-19 pandemic. このタスクは、これらの投稿を英語、特に新型コロナウイルス(covid-19)パンデミックに関連するポストで扱う。 0.56
For this task, training data has been provided. このタスクでは、トレーニングデータが提供される。 0.78
More details about this dataset has been given in the following sections. このデータセットの詳細は以下のセクションで述べられている。 0.82
Dhoju et. al [4] do a structural analysis and extract relevant features to train models which can classify health news as fake and real. Dhojuら。 al[4]は構造分析を行い、ヘルスニュースを偽物と本物と分類できるトレーニングモデルに関連する特徴を抽出する。 0.73
They achieve a high F1-score of 0.96 高F1スコア0.96を達成。 0.63
3 Related Work The study of fake news related to health has not received much attention. 3 関連作業 健康に関する偽ニュースの研究はあまり注目されていない。 0.78
With the COVID-19 pandemic, there has been an increased focus in identifying fake health news. 新型コロナウイルス(COVID-19)のパンデミックにより、偽の健康ニュースの特定に重点が置かれている。 0.41
We list some of the recent related work here. 以下は、最近の関連研究の一覧である。 0.64
Dai et al. [2] constructed a comprehensive repository, FakeHealth, which includes news contents with rich features, news reviews with detailed explanations, social engagements and a user to user social network. と言いました。 [2]は、豊富な機能を備えたニュースコンテンツ、詳細な説明付きのニュースレビュー、ソーシャルエンゲージメント、ユーザーからユーザーへのソーシャルネットワークを含む包括的なリポジトリ、FakeHealthを構築しました。 0.48
They also do exploratory analysis to understand the characteristics of the datasets and analyse useful patterns. また、データセットの特徴を理解し、有用なパターンを分析するために探索分析を行う。
訳抜け防止モード: 探索的な分析も行います データセットの特徴を理解し 有用なパターンを分析します
0.74
Waszak et al. [15] analyze top news shared on the social media to identify leading fake medical information miseducating the society. Waszakなど。 [15]ソーシャルメディア上で共有されているトップニュースを分析し、社会を誤解させる偽の医療情報を識別する。 0.59
They curate top health weblinks in the Polish language social media between 2012 and 2017 and provide detailed analysis. 2012年から2017年にかけてポーランド語ソーシャルメディアのトップヘルスリンクをキュレートし、詳細な分析を行っている。 0.56
4 System overview In this shared task, we formulate the problem of identifying a social media post as fake or not as a text classification problem. 4 システム概要 この共有タスクでは、ソーシャルメディア投稿を偽物か否かをテキスト分類問題として特定する問題を定式化する。 0.77
At first, we have implemented a few simple baseline models like linear classifier and boosting models. 最初は、線形分類器やブースティングモデルのような単純なベースラインモデルをいくつか実装しました。 0.69
Then, we use the transformer architecture and fine-tune different pretrained transformer models like Roberta, bert and electra on the COVID-19 training dataset. 次に、トランスアーキテクチャを使用して、ロバータ、バート、エレクトラなどのさまざまなトレーニング済みトランスモデルをCOVID-19トレーニングデータセットで微調整します。 0.57
We do not do explicit preprocessing because we want the model to learn the patterns of input, like the presence of too many hashtags, too many mentions etc. ハッシュタグが多すぎる、言及が多すぎるなど、入力のパターンをモデルに学びたいので、明示的な前処理は行いません。 0.59
to help identify the fake news. 偽ニュースを見つけるのに役立ちます 0.62
We use Huggingface’s transformers library [16] for finetuning the pretrained 我々はHugingfaceのトランスフォーマーライブラリ[16]を使って、事前トレーニングを微調整する 0.70
transformer models. トランスフォーマーモデル。 0.61
5 Dataset We use the dataset collected by Patwa et. 5 データセット Patwaらが収集したデータセットを使用します。 0.69
al [11]. The dataset consisted of tweets and posts related to COVID-19 obtained from different social-media sites like アル[11]。 データセットは、さまざまなソーシャルメディアサイトから取得したCOVID-19に関連するツイートと投稿で構成されています。 0.51
英語(論文から抽出)日本語訳スコア
Identifying COVID-19 Fake News in Social Media ソーシャルメディア上での偽ニュースの特定 0.59
3 Twitter, Facebook, Instagram and for each tweet there was a label corresponding to a tweet. 3 twitter、facebook、instagram、および各ツイートには、ツイートに対応するラベルがあった。 0.84
The labels were as follows: ラベルは以下のとおりである。 0.71
1. Fake: This denotes if a post is falsely claimed or fake in nature. 1. Fake: 投稿が偽りの主張や偽物である場合のことです。 0.79
Example: Politically Correct Woman (Almost) Uses Pandemic as Excuse Not to Reuse Plastic Bag https://t.co/thF8GuN FPe #coronavirus #nashville 例:政治的に正しい女性(ほぼ)パンデミックをプラスチック袋を再利用しない理由として使用https://t.co/thF8GuN FPe #coronavirus #nashville 0.59
2. Real: This denotes a verified post or a post which is true. 2. Real: これは確認済みのポストまたは真であるポストを指します。 0.82
Example: The CDC currently reports 99031 deaths. 例:CDCは現在99031人の死亡を報告している。 0.59
In general the discrepancies in death counts between different sources are small and explicable. 一般的に、異なるソース間の死亡率の差は小さく説明がつかない。 0.68
The death toll stands at roughly 100000 people today. 死者数は今日で約1万人に上る。 0.76
Below in Table 1. we can see the distribution of fake and real labels in training set, validation set and test set respectively. 表1では、トレーニングセット、検証セット、テストセットで、偽ラベルと実ラベルの分布をそれぞれ見ることができる。 0.70
As we can see that the dataset is データセットが分かるように、 0.50
Split Train Validation Test #Samples #Fake #Real 分割列車検証試験 #Samples #Fake #Real 0.77
6420 2140 2140 6420 2140 2140 0.85
3060 1020 1021 3060 1020 1021 0.85
3360 1120 1120 3360 1120 1120 0.85
Table 1. Results on validation set for COVID-19 Fake news identification task for English language 表1。 英語における新型コロナ偽ニュース識別タスクの検証結果 0.65
fully balanced, hence there was no necessity to perform steps to make the dataset balanced. 完全にバランスが取れたので、データセットをバランスよくするためのステップを実行する必要はありません。
訳抜け防止モード: バランスが取れた だから 必要ないのに データセットのバランスをとるためのステップを実行する。
0.69
For preprocessing the dataset, we have taken the following measures: データセットを前処理するために、以下の措置を講じた。 0.68
– Lowercasing the words – Replacing irrevelant symbols with spaces – Removing stopwords -言葉を下方へ – 不可解なシンボルをスペースで置き換える – 停止語を除去する 0.73
Below in Table 2., we have provided more dataset statistics like the average, maximum and minimum number of words in the posts of training, testing and validation dataset. 下の表2では、トレーニング、テスト、バリデーションデータセットのポストで、平均、最大、最小の単語数などのデータセット統計を提供しています。 0.73
Split Train Validation Test Average Maximum Minimum 分割列車検証試験 平均最大最小値 0.76
27.0 26.8 27.5 27.0 26.8 27.5 0.47
1456 304 1484 1456 304 1484 0.85
3 3 4 Table 2. Dataset statistics showing the number of words in different splits of the dataset 3 3 4 表2。 データセットの異なる分割における単語数を示すデータセット統計 0.79
6 Baseline models 6ベースラインモデル 0.78
We have implemented different simple baseline models on the COVID dataset. COVIDデータセットにさまざまなシンプルなベースラインモデルを実装しました。 0.72
英語(論文から抽出)日本語訳スコア
4 Raha et al., 2021 4 Raha et al., 2021 0.85
Word embeddings: The first step is to represent each post as a vector.We have chosen two different word embeddings for getting vector representations for our posts and sentences: Word2Vec [10] and tf-idf [17]. 単語埋め込み: 最初のステップは、各投稿をベクトルとして表現することです. 私たちは、私たちの投稿と文のベクトル表現を取得するための2つの異なる単語埋め込みを選びました。 0.67
For the Word2Vec, we find embeddings for each word and take the mean of embeddings of each to get a 300-dimension vector representation for a text. Word2Vecでは、各単語の埋め込みを見つけ、各単語の埋め込み平均を取り、テキストの300次元ベクトル表現を取得します。 0.69
Models: After getting the word embeddings, we performed experiments with モデル: 埋め込みという言葉を得た後、私たちは実験を行いました 0.65
the six following classifiers: – Naive Bayes: This classifier is a probabilistic classifier that uses Bayes Theorem. 以下の6つの分類器 – Naive Bayes: この分類器は、Bayes Theoremを使用する確率分類器です。 0.77
On the basis of an event that has occurred previously, it calculates the probability of the current event. 以前に発生したイベントに基づいて、現在のイベントの確率を計算します。 0.64
[12] – Logistic regression: Logistic regression is a statistical model that is used [12] –ロジスティック回帰:ロジスティック回帰は使用される統計モデルである 0.81
to estimate the probability of a response based on predictor variables. 予測変数に基づいて応答の確率を推定する。 0.73
[6] – Bagging models (Random Forests): An ensemble of Decision Trees that uses a tree-like model for predicting the labels. [6] – バッキングモデル (random forests): ラベルを予測するのに木のようなモデルを使用する決定木のアンサンブル。 0.86
For the final output, it considers the outputs of all the decision trees that it created. 最終的なアウトプットについては、生成したすべての決定ツリーのアウトプットを考慮する。 0.65
[9] – Boosting models (XGBoost): Boosting is a general ensemble method where at first a lot of weak classifiers are created and then building a strong classifier by building a model from the training data, then creating a second model that attempts to correct the errors from the first model. [9] boosting models (xgboost): boostingは一般的なアンサンブル手法で、最初は多くの弱い分類器を作成し、トレーニングデータからモデルを構築し、最初のモデルからエラーを訂正しようとする2番目のモデルを作成することで、強力な分類器を構築する。 0.85
XGBoost is a decision-tree-based ensemble Machine Learning algorithm that uses a gradient boosting framework. XGBoostは、勾配ブーストフレームワークを使用する意思決定ツリーベースのアンサンブルマシンラーニングアルゴリズムである。 0.76
[7] – Support Vector Machines: SVM is a non-probabilistic classifier which constructs a set of hyperplanes in a high-dimensional space separating the data into classes. [7] サポートベクトルマシン:SVMは、データをクラスに分離する高次元空間にハイパープレーンの集合を構築する非確率分類器である。 0.86
[5] 7 Transformer models [5] 7変圧器モデル 0.82
For our more advanced models we explored different transformer models. より先進的なモデルでは、さまざまなトランスフォーマーモデルを検討しました。 0.53
Vaswani et al. [14] proposed the transformer architecture. ヴァシワニとアル。 14]はトランスアーキテクチャを提案した。 0.57
They follow the non-recurrent architecture with stacked self-attention and fully connected layers for both the encoder and decoder. 彼らは、スタック化されたセルフアテンションとエンコーダとデコーダの両方のために完全に接続された層を持つ非リカレントアーキテクチャに従う。 0.51
Transformer uses concepts like self attention, multi-head attention, positional embeddings, residual connections and masked attention. トランスフォーマーは自己注意、マルチヘッド注意、位置埋め込み、残留接続、マスク付き注意といった概念を使用する。 0.56
We used the following pre-trained transformer models from HuggingFace repository and fine-tuned it to our classification task: hugingfaceリポジトリからトレーニング済みトランスフォーマーモデルを使用して、分類タスクに微調整しました。 0.57
– bert-base-uncased: 12-layer, 768-hidden, 12-heads, 110M parameters. – bert-base-uncased:12 層、768隠れた、12ヘッド、110Mパラメータ。 0.53
The model has been pretrained on Book Corpus and the Wikipedia data using the Masked Language Model(MLM) and the Next Sentence Prediction(NSP) objectives. このモデルは、Masked Language Model(MLM)とNext Sentence Prediction(NSP)の目的を用いて、ブックコーパスとウィキペディアのデータで事前訓練されている。 0.78
[3] – distilbert-base-unca sed: 6-layer, 768-hidden, 12-heads, 66M parameters. [3] - distilbert-base-unca sed: 6-layer, 768-hidden, 12-heads, 66M parameters。 0.72
It is a smaller model than BERT which is a lot cheaper and faster to train than BERT. BERTよりも小型モデルであり、BERTよりもはるかに安価で訓練が速くなっています。 0.79
[13] – roberta-base: 12-layer, 768-hidden, 12-heads, 125M parameters.RoBERTa [8] is a Robust BERT approach which has been trained on a much more larger dataset and for much larger number of iterations with a larger batch size of 8k. [13] – roberta-base: 12-layer, 768-hidden, 12-heads, 125M parameters.RoBERTa [8]はRobust BERTアプローチで、より大規模なデータセットと8kのバッチサイズではるかに多くのイテレーションでトレーニングされている。 0.82
RoBERTa also removes the NSP objective from the pretraining. RoBERTaはまた、NSPの目的を事前トレーニングから削除する。 0.65
英語(論文から抽出)日本語訳スコア
Identifying COVID-19 Fake News in Social Media ソーシャルメディア上での偽ニュースの特定 0.59
5 – google/electra-base: 12-layer, 768-hidden, 12-heads, 110M parameters. 5 – Google/electraベース:12層、768の隠蔽、12ヘッド、110Mパラメータ。 0.71
ELECTRA models are trained to distinguish ”real” input tokens vs ”fake” input tokens generated by another neural network, similar to the discriminator of a GAN. ELECTRAモデルは、別のニューラルネットワークが生成した"リアル"入力トークンと"フェイク"入力トークンを区別するように訓練されている。 0.64
[1] – xlnet-base-cased: 12-layer, 768-hidden, 12-heads, 110M parameters. [1] - xlnet-base-cased: 12-layer, 768-hidden, 12-heads, 110Mパラメータ。 0.72
It is similar to BERT but it learns bidirectional context alongwith autoregressive formulation. BERTと似ているが、自動回帰定式化とともに双方向の文脈を学習する。 0.53
[18] 8 Experimental Setup [18] 8 実験セットアップ 0.83
We combine both the dev and training dataset and then split them into train and validation in the ratio of 90:10. 開発とトレーニングのデータセットを組み合わせることで、90:10の比率で、それらをトレインとバリデーションに分割します。 0.73
We train on the training split and evaluate on the validation split. 私たちはトレーニングスプリットでトレーニングを行い、バリデーションスプリットを評価します。 0.60
We do not do any explicit pre-processing like removing the mentions or re- 言及の削除や再処理のような明示的な事前処理は行いません。 0.57
moving the hashtags because we want the model to learn these patterns. ハッシュタグを移動させるのは モデルにパターンを学習させたいからです 0.60
We use Huggingface’s transformers library [16] for all our experiments. 私たちはすべての実験に huggingface の transformers library [16] を使っています。 0.82
The primary evaluation metric for the shared task is the F1 score. 共有タスクの主要な評価基準は、F1スコアである。 0.72
It is defined as a is the harmonic mean of the precision and recall. これは、精度とリコールの調和平均であるとして定義されます。 0.65
An F1 score reaches its best value at 1 and worst score at 0. F1スコアは1で最高の値に達し、最悪のスコアは0。 0.78
In addition, we report the accuracy metric also. また,精度の指標についても報告する。 0.76
Method Naive Bayes Model(tf-idf) Linear Classifier(tf-idf) Bagging Model(tf-idf) Boosting Model(tf-idf) SVM Model(tf-idf) Linear Classifier(word2vec) Bagging Model(word2vec) Boosting Model(word2vec) SVM Model(word2vec) bert-base-uncased distilbert-base-unca sed roberta-base electra-base xlnet-base-cased Method Naive Bayes Model(tf-idf) Linear Classifier(tf-idf) Bagging Model(tf-idf) Boosting Model(tf-idf) Linear Classifier(word2vec) Bagging Model(word2vec) Boosting Model(word2vec) SVM Model(word2vec) bert-base-uncased distilbert-base-unca sed roberta-base electra-base xlnet-base-cased 0.78
Accuracy F1-score 0.887 0.901 0.926 0.914 0.941 0.883 0.915 0.914 0.909 0.962 0.957 0.982 0.981 0.948 精度F1スコア 0.887 0.901 0.926 0.914 0.941 0.883 0.915 0.914 0.909 0.962 0.957 0.982 0.981 0.948 0.51
0.885 0.893 0.921 0.913 0.941 0.879 0.912 0.912 0.905 0.960 0.955 0.982 0.981 0.944 0.885 0.893 0.921 0.913 0.941 0.879 0.912 0.912 0.905 0.960 0.955 0.982 0.981 0.944 0.41
Table 3. Results on validation set for COVID-19 Fake news identification task for English language. 表3。 COVID-19フェイクニュース識別タスクの英語に対する検証セットの結果。 0.78
The first section denotes the baseline models on tf-idf. 第1節は tf-idf のベースラインモデルを示す。 0.79
Te second section denotes the baseline models on word2vec. Te 2 セクションは word2vec のベースラインモデルを表す。 0.76
The third section refers to the transformers models. 第3部ではトランスフォーマーモデルを参照。 0.70
英語(論文から抽出)日本語訳スコア
6 Raha et al., 2021 6 Raha et al., 2021 0.85
Method SVM Model(tf-idf) Bagging Model(word2vec) Boosting Model(word2vec) roberta-base electra-base 方法 SVM Model(tf-idf) Bagging Model(word2vec) Boosting Model(word2vec) roberta-base electra-base 0.77
Accuracy F1-score 0.939 0.910 0.927 0.9864 0.9827 精度F1スコア 0.939 0.910 0.927 0.9864 0.9827 0.52
0.938 0.910 0.926 0.9864 0.9827 0.938 0.910 0.926 0.9864 0.9827 0.44
Table 4. Results on the official test set for COVID-19 Fake news identification task for English language. 表4。 新型コロナウイルス(COVID-19)のニュース識別タスクの公式テストセットの結果。 0.64
The first section denotes the baseline models on tf-idf. 第1節は tf-idf のベースラインモデルを示す。 0.79
Te second section denotes the baseline models on word2vec. Te 2 セクションは word2vec のベースラインモデルを表す。 0.76
The third section refers to the transformers models. 第3部ではトランスフォーマーモデルを参照。 0.70
9 Results Table 3 shows the results of our model on the validation dataset. 9結果 表3は、検証データセット上のモデルの結果を示しています。 0.75
We see that the RoBERTa model gives an F1-score of 0.982 with an accuracy of 0.982 on the validation set. RoBERTaモデルは、検証セット上で0.982の精度でF1スコア0.982を与える。 0.77
Our Electra model achieves an F1-score of 0.981 and an accuracy of 0.981 on the validation set. Electraモデルでは,F1スコアが0.981,精度が0.981となる。 0.81
We submit these two models for final evaluation on the official test set. これら2つのモデルを公式テストセットの最終評価として提出する。 0.70
Table 4 shows the official results of our models on the official test set. 表4は、私たちのモデルの公式な結果を公式テストセットで示します。 0.63
We see that the RoBERTa model gives an F1-score of 0.9864 with an accuracy of 0.9864 on the official test set. 公式テストセットでは、RoBERTaモデルはF1スコアが0.9864であり、精度は0.9864である。 0.75
Our RoBERTa model achieves 2nd position on the official leader board, 0.05 我々のRoBERTaモデルは、公式のリーダーボードで2位、0.05 0.67
percentage points less than the best F1 score. パーセンテージポイントは最高のF1スコア未満です。 0.73
Our Electra model achieves an F1-score of 0.9827 with an accuracy of 0.9827 on the official test set, comparable with the top performing models on the leader board 当社のElectraモデルは、公式テストセットで0.9827の精度で0.9827のF1スコアを達成し、リーダーボードのトップパフォーマンスモデルに匹敵します。 0.75
10 Conclusion Identifying fake COVID-19 news is challenging and going forward it would be useful not only to classify if a social media post is fake or not, but also to give interpretation on why the news is fake or not. 10 結論 偽のCOVID-19ニュースを識別することは困難であり、今後はソーシャルメディアの投稿が偽であるかどうかを分類するだけでなく、ニュースが偽である理由を解釈するのに役立つでしょう。 0.72
We would like to explore on the interpretability of the models. モデルの解釈可能性について探求したいと思います。 0.61
References 1. Clark, K., Luong, M.T., Le, Q.V., Manning, C.D. 参考文献 1. Clark, K., Luong, M.T., Le, Q.V., Manning, C.D. 0.79
: Electra: Pre-training text Electra:事前学習用テキスト 0.84
encoders as discriminators rather than generators (2020) 発電機よりむしろ差別者としてのエンコーダ(2020年) 0.61
2. Dai, E., Sun, Y., Wang, S.: Ginger cannot cure cancer: Battling fake health news with a comprehensive data repository. 2. dai, e., sun, y., wang, s.: ginger cannot cure cancer: battling fake health news with a comprehensive data repository (英語) 0.80
In: Proceedings of the International AAAI Conference on Web and Social Media. In: International AAAI Conference on Web and Social Media に参加。 0.74
vol. 14, pp. Vol. 14, pp。 0.75
853–862 (2020) 853–862 (2020) 0.84
3. Devlin, J., Chang, M.W., Lee, K., Toutanova, K.: Bert: Pre-training of deep 3. Devlin, J., Chang, M.W., Lee, K., Toutanova, K.: Bert: Pre-training of Deep 0.90
bidirectional transformers for language understanding. 言語理解のための双方向トランスフォーマー。 0.68
arXiv preprint arXiv:1810.04805 (2018) arXiv preprint arXiv:1810.04805 (2018) 0.75
英語(論文から抽出)日本語訳スコア
Identifying COVID-19 Fake News in Social Media ソーシャルメディア上での偽ニュースの特定 0.59
7 4. Dhoju, S., Main Uddin Rony, M., Ashad Kabir, M., Hassan, N.: Differences in health news from reliable and unreliable media. 7 4. Dhoju, S., Main Uddin Rony, M., Ashad Kabir, M., Hassan, N.: Health Newsの信頼性と信頼性の低いメディアとの相違 0.87
In: Companion Proceedings of The 2019 World Wide Web Conference. 2019年のWorld Wide Web Conferenceのコンパニオン・プロセッシング。 0.62
pp. 981–987 (2019) pp. 981–987 (2019) 0.85
5. Hassan, S., Rafi, M., Shaikh, M.S. 5. Hassan, S., Rafi, M., Shaikh, M.S. 0.92
: Comparing svm and naive bayes classifiers for : svmとナイーブベイズ分類器の比較 0.79
text categorization with wikitology as knowledge enrichment. 知識の豊かさとしてのウィキトロジーによるテキスト分類。 0.59
2011 IEEE 14th International Multitopic Conference (Dec 2011). 2011年IEEE 14th International Multitopic Conference (Dec 2011)。 0.82
https://doi.org/10.1 109/inmic.2011.61514 95, http://dx.doi.org/10 .1109/INMIC.2011.615 1495 https://doi.org/10.1 109/inmic.2011.61514 95, http://dx.doi.org/10 .1109/INMIC.2011.615 1495 0.25
6. Kowsari, Meimandi, J., Heidarysafa, Mendu, Barnes, Brown: Text classification 6. Kowsari, Meimandi, J., Heidarysafa, Mendu, Barnes, Brown: テキスト分類 0.84
algorithms: A survey. アルゴリズム: 調査。 0.59
Information 10(4), 150 (Apr 2019). 情報 10(4)、150 (2019年4月)。 0.76
https://doi.org/10.3 390/info10040150, http://dx.doi.org/10 .3390/info10040150 https://doi.org/10.3 390/info10040150, http://dx.doi.org/10 .3390/info10040150 0.29
7. Li, M., Xiao, P., Zhang, J.: Text classification based on ensemble extreme 7. Li, M., Xiao, P., Zhang, J.: 極端なアンサンブルに基づくテキスト分類 0.84
learning machine (2018) 学習機械(2018年) 0.64
8. Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., Stoyanov, V.: Roberta: A robustly optimized bert pretraining approach. 8. Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., Stoyanov, V.: Roberta: 堅牢に最適化されたベルトプリトレーニングアプローチ。 0.85
arXiv preprint arXiv:1907.11692 (2019) arXiv preprint arXiv:1907.11692 (2019) 0.75
9. Markel, J., Bayless, A.J. 9. Markel、J.、Bayless、A.J。 0.81
: Using random forest machine learning algorithms in ランダムフォレスト機械学習アルゴリズムの利用 0.59
binary supernovae classification (2020) 二進超新星分類(2020年) 0.74
10. Mikolov, T., Chen, K., Corrado, G., Dean, J.: Efficient estimation of word 10. Mikolov, T., Chen, K., Corrado, G., Dean, J.: 単語の効率的な推定 0.88
representations in vector space (2013) ベクトル空間における表現(2013年) 0.68
11. Patwa, P., Sharma, S., PYKL, S., Guptha, V., Kumari, G., Akhtar, M.S., Ekbal, A., Das, A., Chakraborty, T.: Fighting an infodemic: Covid-19 fake news dataset. 11. Patwa, P., Sharma, S., PYKL, S., Guptha, V., Kumari, G., Akhtar, M.S., Ekbal, A., Das, A., Chakraborty, T.: Fighting an infodemic: Covid-19 fake news dataset。 0.89
arXiv preprint arXiv:2011.03327 (2020) arXiv preprint arXiv:2011.03327 (2020) 0.75
12. Raschka, S.: Naive bayes and text classification i - introduction and theory (2017) 13. 12. Raschka, S.: Naive bayes and text classification i - introduction and theory (2017) 13。 0.86
Sanh, V., Debut, L., Chaumond, J., Wolf, T.: Distilbert, a distilled version of Sanh、V.、Debut、L.、Chaumond、J.、Wolf、T.:Distilbert、蒸留バージョン。 0.79
bert: smaller, faster, cheaper and lighter (2020) bert: より小さく、速く、安く、軽く(2020年) 0.83
14. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L., Polosukhin, I.: Attention is all you need. 14. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L., Polosukhin, I.: 注意が必要だ。 0.86
In: NIPS. pp. 内:NIPS。 pp. 0.80
5998–6008 (2017) 5998–6008 (2017) 0.84
15. Waszak, P.M., Kasprzycka-Waszak, W., Kubanek, A.: The spread of medical fake 15. Waszak, P.M., Kasprzycka-Waszak, W., Kubanek, A.: the spread of medical fake 0.88
news in social media–the pilot quantitative study. ソーシャルメディアのニュース - パイロットの定量的研究。 0.66
Health policy and technology 7(2), 115–118 (2018) 健康政策と技術(第7回)115-118(2018) 0.74
16. Wolf, T., Debut, L., Sanh, V., Chaumond, J., Delangue, C., Moi, A., Cistac, P., 16. Wolf, T., Debut, L., Sanh, V., Chaumond, J., Delangue, C., Moi, A., Cistac, P。 0.85
Rault, T., Louf, R., Funtowicz, M., et al. Rault、T.、Louf、R.、Fantowicz、M.、等。 0.82
: Huggingface’s transformers: State-of-the-art natural language processing. :Huggingfaceのトランスフォーマー:最先端の自然言語処理。 0.76
ArXiv pp. arXiv–1910 (2019) 17. ArXiv pp。 arXiv–1910 (2019) 17。 0.84
Wu, H., Yuan, N.: An improved tf-idf algorithm based on word frequency wu, h., yuan, n.: 単語頻度に基づくtf-idfアルゴリズムの改良 0.89
distribution information and category distribution information. 分布情報とカテゴリー分布情報。 0.74
In: Proceedings of the 3rd International Conference on Intelligent Information Processing. 第3回知的情報処理国際会議に参加して 0.58
p. 211–215. p.211-215。 0.60
ICIIP ’18, Association for Computing Machinery, New York, NY, USA (2018). ICIIP ’18, Association for Computing Machinery, New York, NY, USA (2018)。 0.83
https://doi.org/10.1 145/3232116.3232152, https://doi.org/10.1 145/3232116.3232152 https://doi.org/10.1 145/3232116.3232152, https://doi.org/10.1 145/3232116.3232152 0.29
18. Yang, Z., Dai, Z., Yang, Y., Carbonell, J., Salakhutdinov, R., Le, Q.V. 18. Yang, Z., Dai, Z., Yang, Y., Carbonell, J., Salakhutdinov, R., Le, Q.V. 0.88
: Xlnet: Generalized autoregressive pretraining for language understanding (2020) : Xlnet 言語理解のための一般化自己回帰前訓練(2020年) 0.61
               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。