論文の概要: No Rumours Please! A Multi-Indic-Lingual Approach for COVID Fake-Tweet
Detection
- arxiv url: http://arxiv.org/abs/2010.06906v1
- Date: Wed, 14 Oct 2020 09:37:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 12:52:43.161730
- Title: No Rumours Please! A Multi-Indic-Lingual Approach for COVID Fake-Tweet
Detection
- Title(参考訳): 噂を聞かないで!
インフルエンザ・フェイク・ツイート検出のための多言語的アプローチ
- Authors: Debanjana Kar, Mohit Bhardwaj, Suranjana Samanta, Amar Prakash Azad
- Abstract要約: 我々は、英語以外の複数のインデックス言語に対して、ツイートなどのソーシャルメディアから、早期に新型コロナウイルスに関する偽ニュースを検出するアプローチを提案する。
複数のIndic言語へのアプローチを拡大するために、ヒンディー語とベンガル語で生成されたデータセットを微調整したmBERTベースのモデルを使います。
我々の手法は89%の偽ツイート検出でFスコアに達し、その結果がSOTA(State-of-the-art)の結果に取って代わる。
- 参考スコア(独自算出の注目度): 4.411285005377513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The sudden widespread menace created by the present global pandemic COVID-19
has had an unprecedented effect on our lives. Man-kind is going through
humongous fear and dependence on social media like never before. Fear
inevitably leads to panic, speculations, and the spread of misinformation. Many
governments have taken measures to curb the spread of such misinformation for
public well being. Besides global measures, to have effective outreach, systems
for demographically local languages have an important role to play in this
effort. Towards this, we propose an approach to detect fake news about COVID-19
early on from social media, such as tweets, for multiple Indic-Languages
besides English. In addition, we also create an annotated dataset of Hindi and
Bengali tweet for fake news detection. We propose a BERT based model augmented
with additional relevant features extracted from Twitter to identify fake
tweets. To expand our approach to multiple Indic languages, we resort to mBERT
based model which is fine-tuned over created dataset in Hindi and Bengali. We
also propose a zero-shot learning approach to alleviate the data scarcity issue
for such low resource languages. Through rigorous experiments, we show that our
approach reaches around 89% F-Score in fake tweet detection which supercedes
the state-of-the-art (SOTA) results. Moreover, we establish the first benchmark
for two Indic-Languages, Hindi and Bengali. Using our annotated data, our model
achieves about 79% F-Score in Hindi and 81% F-Score for Bengali Tweets. Our
zero-shot model achieves about 81% F-Score in Hindi and 78% F-Score for Bengali
Tweets without any annotated data, which clearly indicates the efficacy of our
approach.
- Abstract(参考訳): 新型コロナウイルス(COVID-19)による突然のパンデミックは、私たちの生活に前例のない影響を与えた。
人類はかつてない屈辱的な恐怖とソーシャルメディアへの依存を乗り越えている。
恐怖は必然的にパニック、憶測、誤情報の拡散につながる。
多くの政府は、このような誤報の拡散を抑制する措置を講じている。
グローバルな尺度に加えて、効果的なアウトリーチを行うためには、人口動態的な地域言語のためのシステムが、この取り組みにおいて重要な役割を果たす。
そこで本研究では,twitterなどのソーシャルメディアから早期にcovid-19に関する偽ニュースを英語以外の複数の言語で検出する手法を提案する。
さらに、偽ニュース検出のためのHindiとBengaliのツイートの注釈付きデータセットも作成します。
我々は、偽ツイートを識別するために、Twitterから抽出した関連機能を付加したBERTベースのモデルを提案する。
複数のIndic言語へのアプローチを拡大するために、ヒンディー語とベンガル語で生成されたデータセットを微調整したmBERTベースのモデルを使います。
また,このような低リソース言語に対するデータ不足問題を解決するためのゼロショット学習手法を提案する。
厳密な実験により,我々は偽ツイート検出において約89%のf-scoreに到達し,最新(sota)結果に取って代わることを示した。
さらに,ヒンディー語とベンガル語という2つの言語に対する最初のベンチマークを確立する。
注釈付きデータを用い,ヒンディー語ではf-scoreが約79%,ベンガル語ではf-scoreが81%であった。
我々のゼロショットモデルは、ヒンズー語ではf-scoreが約81%、ベンガル語ではf-scoreが78%と、注釈付きデータなしで達成されている。
関連論文リスト
- Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Harnessing Pre-Trained Sentence Transformers for Offensive Language
Detection in Indian Languages [0.6526824510982802]
この研究はヘイトスピーチ検出の領域に踏み込み、ベンガル語、アサメセ語、グジャラート語という3つの低リソースのインドの言語に特に重点を置いている。
この課題は、ツイートが攻撃的コンテンツを含むか、非攻撃的コンテンツを含むかを識別することを目的としたテキスト分類タスクである。
我々は,事前学習したBERTモデルとSBERTモデルを微調整し,ヘイトスピーチの同定の有効性を評価する。
論文 参考訳(メタデータ) (2023-10-03T17:53:09Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Ceasing hate withMoH: Hate Speech Detection in Hindi-English
Code-Switched Language [2.9926023796813728]
本研究はヒンディー語・英語のコードスイッチング言語におけるヘイトスピーチの分析に焦点をあてる。
データ構造を含むため、Hindi の "Love" を意味する MoH または Map Only Hindi を開発した。
MoHパイプラインは言語識別で構成され、ローマ語からデヴァナガリ・ヒンディー語への翻訳は、ローマ語のヒンディー語の知識ベースを用いて行われる。
論文 参考訳(メタデータ) (2021-10-18T15:24:32Z) - Cross-lingual COVID-19 Fake News Detection [54.125563009333995]
低リソース言語(中国語)における新型コロナウイルスの誤報を検出するための最初の試みは、高リソース言語(英語)における事実チェックされたニュースのみを用いて行われる。
そこで我々は、クロスランガルなニュースボディテキストを共同でエンコードし、ニュースコンテンツをキャプチャするCrossFakeというディープラーニングフレームワークを提案する。
実験結果から,クロスランガル環境下でのCrossFakeの有効性が示された。
論文 参考訳(メタデータ) (2021-10-13T04:44:02Z) - Factorization of Fact-Checks for Low Resource Indian Languages [44.94080515860928]
FactDRILは、インドの地域言語のための最初の大規模多言語ファクトチェックデータセットです。
本データセットは英語9,058サンプル,ヒンディー語5,155サンプルからなり,残りの8,222サンプルは様々な地域言語に分布する。
このデータセットは貴重なリソースであり、低リソース言語での偽ニュースの拡散と戦う出発点となると期待しています。
論文 参考訳(メタデータ) (2021-02-23T16:47:41Z) - Hostility Detection and Covid-19 Fake News Detection in Social Media [1.3499391168620467]
我々は,Hindi BERTとHindi FastTextモデルを用いて,乱用言語検出と特徴抽出を併用したモデルを構築した。
また、英語のツイートでCovid-19に関連する偽ニュースを識別するためのモデルを構築しています。
論文 参考訳(メタデータ) (2021-01-15T03:24:36Z) - Evaluation of Deep Learning Models for Hostility Detection in Hindi Text [2.572404739180802]
ヒンディー語における敵対的テキスト検出手法を提案する。
提案手法は、Constraint@AAAI 2021 Hindiホスト性検出データセットで評価される。
この多ラベル分類問題に対して,CNN,LSTM,BERTに基づく深層学習手法のホストを評価した。
論文 参考訳(メタデータ) (2021-01-11T19:10:57Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。