論文の概要: Two-Stage Classifier for COVID-19 Misinformation Detection Using BERT: a
Study on Indonesian Tweets
- arxiv url: http://arxiv.org/abs/2206.15359v1
- Date: Thu, 30 Jun 2022 15:33:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 19:21:58.491665
- Title: Two-Stage Classifier for COVID-19 Misinformation Detection Using BERT: a
Study on Indonesian Tweets
- Title(参考訳): BERTを用いたCOVID-19誤情報検出のための2段階分類器 : インドネシアのつぶやきについて
- Authors: Douglas Raevan Faisal and Rahmad Mahendra
- Abstract要約: インドネシアでの新型コロナウイルスの誤情報検出に関する研究はいまだに少ない。
本研究では,ツイート誤報検出タスクに対して,IndoBERT事前学習言語モデルを用いた2段階分類モデルを提案する。
実験の結果、関連予測のためのBERTシーケンス分類器と誤情報検出のためのBi-LSTMの組み合わせは、87.02%の精度で他の機械学習モデルよりも優れていた。
- 参考スコア(独自算出の注目度): 0.15229257192293202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The COVID-19 pandemic has caused globally significant impacts since the
beginning of 2020. This brought a lot of confusion to society, especially due
to the spread of misinformation through social media. Although there were
already several studies related to the detection of misinformation in social
media data, most studies focused on the English dataset. Research on COVID-19
misinformation detection in Indonesia is still scarce. Therefore, through this
research, we collect and annotate datasets for Indonesian and build prediction
models for detecting COVID-19 misinformation by considering the tweet's
relevance. The dataset construction is carried out by a team of annotators who
labeled the relevance and misinformation of the tweet data. In this study, we
propose the two-stage classifier model using IndoBERT pre-trained language
model for the Tweet misinformation detection task. We also experiment with
several other baseline models for text classification. The experimental results
show that the combination of the BERT sequence classifier for relevance
prediction and Bi-LSTM for misinformation detection outperformed other machine
learning models with an accuracy of 87.02%. Overall, the BERT utilization
contributes to the higher performance of most prediction models. We release a
high-quality COVID-19 misinformation Tweet corpus in the Indonesian language,
indicated by the high inter-annotator agreement.
- Abstract(参考訳): 新型コロナウイルス(covid-19)のパンデミックは、2020年初めから世界的な大きな影響をもたらした。
このことは社会に多くの混乱をもたらし、特にソーシャルメディアを通じて誤報が広まったためである。
ソーシャルメディアデータにおける誤情報検出に関する研究はすでにいくつかあったが、ほとんどの研究は英語データセットに焦点を当てている。
インドネシアでの新型コロナウイルスの誤情報検出に関する研究はいまだに少ない。
そこで本研究では,インドネシアのデータセットを収集・注釈し,ツイートの関連性を考慮し,新型コロナウイルスの誤報を検出するための予測モデルを構築した。
データセットの構築は、ツイートデータの関連性と誤報をラベル付けしたアノテータのチームによって行われる。
本研究では,ツイート誤報検出タスクに対して,IndoBERT事前学習言語モデルを用いた2段階分類モデルを提案する。
また,テキスト分類のベースラインモデルについても実験を行った。
実験の結果、関連予測のためのBERTシーケンス分類器と誤情報検出のためのBi-LSTMの組み合わせは、87.02%の精度で他の機械学習モデルよりも優れていた。
BERTの利用は、ほとんどの予測モデルの性能向上に寄与する。
インドネシア語で高品質な COVID-19 誤報ツイートコーパスを公開します。
関連論文リスト
- Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - A Large-Scale Comparative Study of Accurate COVID-19 Information versus
Misinformation [4.926199465135915]
新型コロナウイルス(COVID-19)のパンデミックは、ソーシャルメディアを通じて大量の新型コロナウイルス関連コンテンツが高速で拡散するインフォデミックを引き起こした。
その結果,2億2200万件以上のツイートを大規模に計算し,正確な新型コロナウイルス情報と比較した。
この研究のさらなる貢献は、新型コロナウイルスの誤情報分類データセットの作成である。
論文 参考訳(メタデータ) (2023-04-10T18:44:41Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Testing the Generalization of Neural Language Models for COVID-19
Misinformation Detection [6.1204874238049705]
新型コロナウイルス(COVID-19)のパンデミックの副産物として、生命を脅かす可能性のある誤報が大幅に増加した。
5つの誤報データセットを用いてトランスフォーマーに基づく15のモデルを評価する。
新型コロナウイルス(COVID-19)データに合わせたトークンやモデルは、汎用データに対して大きな優位性を提供していない。
論文 参考訳(メタデータ) (2021-11-15T15:01:55Z) - Combat COVID-19 Infodemic Using Explainable Natural Language Processing
Models [15.782463163357976]
新型コロナの誤報対策として,DistilBERTとSHAPに基づく説明可能な自然言語処理モデルを提案する。
その結果は、新型コロナウイルスの誤報の検出と公衆の信頼向上に良い影響を与えました。
論文 参考訳(メタデータ) (2021-03-01T04:28:39Z) - Eating Garlic Prevents COVID-19 Infection: Detecting Misinformation on
the Arabic Content of Twitter [0.23624125155742054]
私たちは、covid-19の誤った情報に関連する大きなアラビア語データセットを構築し、そのツイートを2つのカテゴリに分類します。
単語埋め込みや単語頻度など、さまざまな機能を備えた8つの従来型および深層機械学習モデルを適用する。
実験では、曲線下の領域(AUC)を最適化することでモデルのパフォーマンスが向上し、Extreme Gradient Boosting(XGBoost)は、オンラインでCOVID-19の誤情報を検出する最高精度を示します。
論文 参考訳(メタデータ) (2021-01-09T22:52:21Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Misinformation Has High Perplexity [55.47422012881148]
疑似クレームを教師なしの方法でデバンクするために, 難易度を活用することを提案する。
まず,これらの主張に類似した文に基づいて,科学的およびニュースソースから信頼性のある証拠を抽出する。
第2に,抽出したエビデンスを言語モデルにプライマリし,難易度スコアに基づいて与えられたクレームの正当性を評価する。
論文 参考訳(メタデータ) (2020-06-08T15:13:44Z) - Independent Component Analysis for Trustworthy Cyberspace during High
Impact Events: An Application to Covid-19 [4.629100947762816]
新型コロナウイルス(COVID-19)の感染拡大など、ソーシャルメディアは重要なコミュニケーションチャンネルとなっている。
ソーシャルメディアにおける誤報が急速に拡散し、社会不安を生じさせるため、そのような出来事における誤報の拡散は重要なデータ課題である。
本稿では,ICAモデルに基づくデータ駆動型ソリューションを提案する。
論文 参考訳(メタデータ) (2020-06-01T21:48:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。