論文の概要: Looking for COVID-19 misinformation in multilingual social media texts
- arxiv url: http://arxiv.org/abs/2105.03313v1
- Date: Mon, 3 May 2021 14:30:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 08:37:11.731709
- Title: Looking for COVID-19 misinformation in multilingual social media texts
- Title(参考訳): 多言語性ソーシャルメディアにおけるcovid-19誤情報の検索
- Authors: Raj Ratn Pranesh and Mehrdad Farokhnejad and Ambesh Shekhar and
Genoveva Vargas-Solar
- Abstract要約: CMTAは、多言語(マイクロ)テキストの処理、分類、分析に機械学習モデルを適用するデータサイエンス(DS)パイプラインを提案する。
DSパイプラインデータ準備タスクは、多言語テキストデータから特徴を抽出し、特定の情報クラスに分類します。
CMTAパイプラインは多言語のマイクロテキスト(tweet)で実験されており、さまざまな言語に誤情報が広がっている。
- 参考スコア(独自算出の注目度): 0.22940141855172028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the Multilingual COVID-19 Analysis Method (CMTA) for
detecting and observing the spread of misinformation about this disease within
texts. CMTA proposes a data science (DS) pipeline that applies machine learning
models for processing, classifying (Dense-CNN) and analyzing (MBERT)
multilingual (micro)-texts. DS pipeline data preparation tasks extract features
from multilingual textual data and categorize it into specific information
classes (i.e., 'false', 'partly false', 'misleading'). The CMTA pipeline has
been experimented with multilingual micro-texts (tweets), showing
misinformation spread across different languages. To assess the performance of
CMTA and put it in perspective, we performed a comparative analysis of CMTA
with eight monolingual models used for detecting misinformation. The comparison
shows that CMTA has surpassed various monolingual models and suggests that it
can be used as a general method for detecting misinformation in multilingual
micro-texts. CMTA experimental results show misinformation trends about
COVID-19 in different languages during the first pandemic months.
- Abstract(参考訳): 本稿では,本疾患に関する誤報をテキスト内で検出し,観察するための多言語COVID-19分析法(CMTA)を提案する。
CMTAは、処理、分類(Dense-CNN)、分析(MBERT)マルチリンガル(micro)テキストに機械学習モデルを適用するデータサイエンス(DS)パイプラインを提案する。
DSパイプラインデータ作成タスクは、多言語テキストデータから特徴を抽出し、それを特定の情報クラス(false, 'partly false', 'misleading')に分類する。
CMTAパイプラインは多言語マイクロテキスト(つぶやき)を用いて実験されており、様々な言語にまたがる誤情報を示している。
CMTAの性能を評価するために,誤情報検出に用いた8つの単言語モデルを用いてCMTAの比較分析を行った。
比較の結果,CMTAは様々な単言語モデルを超えており,多言語マイクロテキストにおける誤情報検出の一般的な方法として利用できることが示唆された。
cmtaの実験結果は、最初のパンデミックの数ヶ月間、さまざまな言語でcovid-19に関する誤った情報傾向を示している。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - M2SA: Multimodal and Multilingual Model for Sentiment Analysis of Tweets [4.478789600295492]
本稿では,既存のテキスト型Twitter感情データセットを,簡単なキュレーションプロセスを通じてマルチモーダルフォーマットに変換する。
本研究は,研究コミュニティにおける感情関連研究の新たな道を開くものである。
論文 参考訳(メタデータ) (2024-04-02T09:11:58Z) - XFEVER: Exploring Fact Verification across Languages [40.1637899493061]
本稿では,異なる言語間で事実検証モデルをベンチマークするために設計された言語間ファクト抽出と検証データセットを提案する。
我々は、Fact extract and VERificationデータセットのクレームとエビデンステキストを6言語に翻訳して構築した。
トレーニングセットと開発セットは機械翻訳を使用して翻訳され、テストセットはプロの翻訳者によって翻訳されたテキストと機械翻訳されたテキストを含む。
論文 参考訳(メタデータ) (2023-10-25T01:20:17Z) - When Does Monolingual Data Help Multilingual Translation: The Role of Domain and Model Scale [73.69252847606212]
自動符号化(DAE)と逆翻訳(BT)が機械翻訳(MMT)に与える影響について検討する。
モノリンガルデータは一般的にMTMに役立つが、モデルは驚くほどドメインミスマッチ、特により小さなモデルスケールでは不安定である。
スケールが大きくなるにつれて、DAEは並列のみのベースラインを90Mで過小評価することから、BTのパフォーマンスを1.6Bで収束させ、低リソースでそれを上回るものへと移行する。
論文 参考訳(メタデータ) (2023-05-23T14:48:42Z) - Statistical Machine Translation for Indic Languages [1.8899300124593648]
本稿では,バイリンガル統計機械翻訳モデルの開発について論じる。
このシステムを構築するために,MOSES オープンソース SMT ツールキットについて検討した。
本実験では, BLEU, METEOR, RIBESなどの標準指標を用いて, 翻訳の質を評価する。
論文 参考訳(メタデータ) (2023-01-02T06:23:12Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - Transferring Knowledge Distillation for Multilingual Social Event
Detection [42.663309895263666]
最近発表されたグラフニューラルネットワーク(GNN)は、ソーシャルイベント検出タスクにおける有望なパフォーマンスを示している。
本稿では,多言語データストリーム中の事象を検出するために,言語間単語埋め込みを組み込んだGNNを提案する。
合成データセットと実世界のデータセットの両方の実験では、多言語データとトレーニングサンプルが不足している言語の両方において、検出に非常に効果的なフレームワークが示されている。
論文 参考訳(メタデータ) (2021-08-06T12:38:42Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。