論文の概要: Mega-COV: A Billion-Scale Dataset of 100+ Languages for COVID-19
- arxiv url: http://arxiv.org/abs/2005.06012v4
- Date: Fri, 5 Feb 2021 22:19:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 12:52:21.349261
- Title: Mega-COV: A Billion-Scale Dataset of 100+ Languages for COVID-19
- Title(参考訳): Mega-COV: 新型コロナウイルスの100言語以上のデータセット
- Authors: Muhammad Abdul-Mageed, AbdelRahim Elmadany, El Moatez Billah Nagoudi,
Dinesh Pabbi, Kunal Verma, Rannie Lin
- Abstract要約: Mega-COVは、Twitterが新型コロナウイルスを研究するための10億ドル規模のデータセットだ。
データセットは多種多様(268か国をカバー)、縦(2007年に遡る)、多言語(100言語以上)、そしてかなりの数の位置情報にタグ付けされたつぶやき(169万ツイート)がある。
1つは、ツイートがパンデミックと関連しているかどうか(ベストF1=97%)、もう1つは、新型コロナウイルス(ベストF1=92%)の誤情報を検出するための強力なモデルを開発し、リリースする。
- 参考スコア(独自算出の注目度): 7.030105924295838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe Mega-COV, a billion-scale dataset from Twitter for studying
COVID-19. The dataset is diverse (covers 268 countries), longitudinal (goes as
back as 2007), multilingual (comes in 100+ languages), and has a significant
number of location-tagged tweets (~169M tweets). We release tweet IDs from the
dataset. We also develop and release two powerful models, one for identifying
whether or not a tweet is related to the pandemic (best F1=97%) and another for
detecting misinformation about COVID-19 (best F1=92%). A human annotation study
reveals the utility of our models on a subset of Mega-COV. Our data and models
can be useful for studying a wide host of phenomena related to the pandemic.
Mega-COV and our models are publicly available.
- Abstract(参考訳): twitterのcovid-19研究のための10億規模のデータセットであるmega-covについて紹介する。
データセットは多種多様(268か国をカバー)、縦(2007年に遡る)、多言語(100言語以上)、そしてかなりの数の位置情報にタグ付けされたツイート(約169万ツイート)がある。
データセットからtweet idをリリースします。
また、ツイートがパンデミックと関連しているかどうかを識別するモデル(f1=97%)と、covid-19に関する誤った情報を検出するモデル(f1=92%)を2つ開発した。
人間のアノテーションによる研究により,Mega-COVのサブセット上でのモデルの有用性が明らかになった。
私たちのデータとモデルは、パンデミックに関連する幅広い現象を研究するのに役立ちます。
Mega-COVと当社のモデルは公開されています。
関連論文リスト
- LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [75.9621305227523]
LMSYS-Chat-1M(LMSYS-Chat-1M)について紹介する。
このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成、という4つのユースケースを通じて、その汎用性を実証する。
論文 参考訳(メタデータ) (2023-09-21T12:13:55Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - The COVMis-Stance dataset: Stance Detection on Twitter for COVID-19
Misinformation [3.9533044769534444]
新型コロナウイルス(COVID-19)のパンデミックの間、ソーシャルメディアでは大量の誤報が拡散している。
新型コロナウイルスの誤報に対する姿勢を示す2631のツイートからなる新しいスタンスデータセットを構築した。
実験結果から,MNLIデータセット上で逐次微調整を行った場合,モデルが最良であることを示す。
論文 参考訳(メタデータ) (2022-04-05T05:47:15Z) - Misleading the Covid-19 vaccination discourse on Twitter: An exploratory
study of infodemic around the pandemic [0.45593531937154413]
我々は7ヶ月(2020年9月~2021年3月)のコビッドウイルスワクチン接種に関連する中規模のツイートコーパス(20万件)を収集する。
Transfer Learningのアプローチに従えば、事前訓練されたTransformerベースのXLNetモデルを使用して、ツイートをミスリーディングまたは非ミスリーディングに分類する。
我々は、自然に誤解を招くコーパスのツイートの特徴と非誤解を招くツイートの特徴を調査・対比するためにこの手法を構築した。
いくつかのMLモデルは、最大90%の精度で予測に使用され、各特徴の重要性は、SHAP Explainable AI (X)を用いて説明される。
論文 参考訳(メタデータ) (2021-08-16T17:02:18Z) - COVID-19 Named Entity Recognition for Vietnamese [6.17059264011429]
ベトナムで最初の手作業によるcovid-19ドメイン固有データセットについて紹介する。
私たちのデータセットは、新たに定義されたエンティティタイプを持つ名前付きエンティティ認識タスクにアノテートされます。
当社のデータセットには、既存のベトナムのNERデータセットと比較して最大数のエンティティが含まれています。
論文 参考訳(メタデータ) (2021-04-08T16:35:34Z) - CML-COVID: A Large-Scale COVID-19 Twitter Dataset with Latent Topics,
Sentiment and Location Information [0.0]
CML-COVID(CML-COVID)は、新型コロナウイルス(COVID-19)による5,977,653人のツイート19,298,967万件のTwitterデータセットである。
これらのツイートは、2020年3月から7月にかけて、新型コロナウイルスに関連する質問文、コビッド、マスクを使って収集された。
論文 参考訳(メタデータ) (2021-01-28T18:59:10Z) - Covid-Transformer: Detecting COVID-19 Trending Topics on Twitter Using
Universal Sentence Encoder [7.305019142196582]
新型コロナウイルス感染症(COVID-19)がパンデミックを引き起こし、世界200カ国以上に感染した。
新型コロナウイルス(COVID-19)の世界的な影響により、ほぼ至る所で人々の大きな関心事となっている。
われわれは、ツイートを分析し、トレンドトピックやTwitter上の人々の関心事を検出する。
論文 参考訳(メタデータ) (2020-09-08T19:00:38Z) - A Multilingual Neural Machine Translation Model for Biomedical Data [84.17747489525794]
生物医学領域におけるテキストの翻訳に使用できる多言語ニューラルマシン翻訳モデルをリリースする。
このモデルは5つの言語(フランス語、ドイツ語、イタリア語、韓国語、スペイン語)から英語に翻訳できる。
ドメインタグを使用して、大量のジェネリックおよびバイオメディカルデータをトレーニングする。
論文 参考訳(メタデータ) (2020-08-06T21:26:43Z) - TICO-19: the Translation Initiative for Covid-19 [112.5601530395345]
COvid-19の翻訳イニシアチブ(TICO-19)は、テストおよび開発データを、35の異なる言語でAIおよびMT研究者に提供した。
同じデータが表現されているすべての言語に変換されるため、テストや開発は、セット内の任意の言語のペアリングに対して行うことができる。
論文 参考訳(メタデータ) (2020-07-03T16:26:17Z) - CO-Search: COVID-19 Information Retrieval with Semantic Search, Question
Answering, and Abstractive Summarization [53.67205506042232]
CO-Searchは、新型コロナウイルスの文献上の複雑なクエリを処理するように設計された、レトリバーランサーセマンティック検索エンジンである。
ドメイン固有の比較的限られたデータセットを考慮し、文書の段落と引用の2部グラフを生成する。
TREC-COVID情報検索課題のデータに基づいて,本システムの評価を行った。
論文 参考訳(メタデータ) (2020-06-17T01:32:48Z) - Cross-lingual Transfer Learning for COVID-19 Outbreak Alignment [90.12602012910465]
われわれは、Twitterを通じてイタリアの新型コロナウイルス感染症(COVID-19)の早期流行を訓練し、他のいくつかの国に移る。
実験の結果,クロスカントリー予測において最大0.85のスピアマン相関が得られた。
論文 参考訳(メタデータ) (2020-06-05T02:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。