論文の概要: EPIC30M: An Epidemics Corpus Of Over 30 Million Relevant Tweets
- arxiv url: http://arxiv.org/abs/2006.08369v2
- Date: Mon, 22 Jun 2020 17:08:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 15:31:57.890594
- Title: EPIC30M: An Epidemics Corpus Of Over 30 Million Relevant Tweets
- Title(参考訳): EPIC30M: 関連ツイート3000万件のエピデミックコーポレーション
- Authors: Junhua Liu, Trisha Singhal, Lucienne T.M. Blessing, Kristin L. Wood
and Kwan Hui Lim
- Abstract要約: EPIC30Mは大規模な流行企業で、Twitterから3000万のマイクロブログ投稿がクロールされている。
EPIC30Mには、エボラ、コレラ、豚インフルエンザという3つの一般的な病気に関連する2200万ツイートのサブセットと、2009年のH1N1豚インフルエンザ、2010年のハイチ・コレラ、2012年の中東呼吸症候群(MERS)、2013年の西アフリカエボラ、2016年のイエメン・コレラ、2018年のキブ・エボラを含む6つの世界的な流行の470万ツイートのサブセットが含まれている。
- 参考スコア(独自算出の注目度): 2.7718973516070684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the start of COVID-19, several relevant corpora from various sources
are presented in the literature that contain millions of data points. While
these corpora are valuable in supporting many analyses on this specific
pandemic, researchers require additional benchmark corpora that contain other
epidemics to facilitate cross-epidemic pattern recognition and trend analysis
tasks. During our other efforts on COVID-19 related work, we discover very
little disease related corpora in the literature that are sizable and rich
enough to support such cross-epidemic analysis tasks. In this paper, we present
EPIC30M, a large-scale epidemic corpus that contains 30 millions micro-blog
posts, i.e., tweets crawled from Twitter, from year 2006 to 2020. EPIC30M
contains a subset of 26.2 millions tweets related to three general diseases,
namely Ebola, Cholera and Swine Flu, and another subset of 4.7 millions tweets
of six global epidemic outbreaks, including 2009 H1N1 Swine Flu, 2010 Haiti
Cholera, 2012 Middle-East Respiratory Syndrome (MERS), 2013 West African Ebola,
2016 Yemen Cholera and 2018 Kivu Ebola. Furthermore, we explore and discuss the
properties of the corpus with statistics of key terms and hashtags and trends
analysis for each subset. Finally, we demonstrate the value and impact that
EPIC30M could create through a discussion of multiple use cases of
cross-epidemic research topics that attract growing interest in recent years.
These use cases span multiple research areas, such as epidemiological modeling,
pattern recognition, natural language understanding and economical modeling.
- Abstract(参考訳): 新型コロナウイルス(COVID-19)の開始以来、何百万ものデータポイントを含む文献で、さまざまなソースからの関連コーパスが紹介されている。
これらのコーパスは、この特定のパンデミックに関する多くの分析を支援するのに有用であるが、研究者は、横断的なパターン認識とトレンド分析タスクを促進するために、他の流行を含む追加のベンチマークコーパスが必要である。
他のcovid-19関連研究の過程では、このようなクロスエピデミック分析タスクをサポートするのに十分な大きさでリッチな文献から、病気に関連するコーパスがほとんど発見されていません。
本稿では,2006年から2020年にかけて,Twitterからクロールしたツイートを3000万件のマイクロブログ投稿を含む大規模流行コーパスEPIC30Mを提案する。
EPIC30Mには、エボラ、コレラ、豚インフルエンザという3つの一般的な病気に関連する2200万ツイートのサブセットと、2009年のH1N1豚インフルエンザ、2010年のハイチ・コレラ、2012年の中東呼吸症候群(MERS)、2013年の西アフリカエボラ、2016年のイエメン・コレラ、2018年のキブ・エボラを含む6つの世界的な流行の470万ツイートのサブセットが含まれている。
さらに,各サブセットのキーワードとハッシュタグの統計と傾向分析を用いてコーパスの特性を考察し,考察する。
最後に、EPIC30Mが生み出す価値と影響を、近年の関心が高まりつつある横断的な研究トピックの複数のユースケースの議論を通じて示す。
これらのユースケースは、疫学モデリング、パターン認識、自然言語理解、経済モデリングなど、複数の研究領域にまたがる。
関連論文リスト
- SPEED++: A Multilingual Event Extraction Framework for Epidemic Prediction and Preparedness [73.73883111570458]
多様な疾患や言語に対する流行イベント情報を抽出する,最初の多言語イベント抽出フレームワークを提案する。
各言語でデータに注釈を付けることは不可能であり、ゼロショット・クロスランガル・クロス・ディスリーズ・モデルを開発する。
われわれのフレームワークは、2019年12月初旬に中国のWeiboポストから、中国でのトレーニングなしに、新型コロナウイルスの流行を警告することができる。
論文 参考訳(メタデータ) (2024-10-24T03:03:54Z) - Sentiment Analysis and Text Analysis of the Public Discourse on Twitter
about COVID-19 and MPox [0.0]
新型コロナウイルス(COVID-19)とMPox(MPox)の最近の流行は、情報の検索や共有、意見、感情の両面でのTwitter利用の触媒となった。
この分野での以前の研究は、COVID-19とMPoxの両方に焦点を当てたツイートを同時に分析することはなかった。
この研究ギャップに対処するため、2022年5月7日から2023年3月3日までに、MPoxとCOVID-19を同時に対象とする合計61,862のツイートが調査された。
論文 参考訳(メタデータ) (2023-12-17T01:50:27Z) - COVID-19 Vaccine Misinformation in Middle Income Countries [5.891662430960944]
本稿では、中所得国であるブラジル、インドネシア、ナイジェリアの3カ国からの注釈付きツイートからなる、新型コロナウイルスワクチン誤報の多言語データセットについて紹介する。
データセットには、5,952ツイートのアノテーション、新型コロナウイルスワクチンとの関連性、誤情報の存在、誤情報のテーマなどが含まれている。
論文 参考訳(メタデータ) (2023-11-30T02:27:34Z) - Human Behavior in the Time of COVID-19: Learning from Big Data [71.26355067309193]
2020年3月以降、新型コロナウイルスの感染者は6億人を超え、600万人以上が死亡している。
パンデミックはあらゆる面で人間の行動に影響を与え、変化をもたらした。
研究者は自然言語処理、コンピュータビジョン、音声信号処理、頻繁なパターンマイニング、機械学習といったビッグデータ技術を採用してきた。
論文 参考訳(メタデータ) (2023-03-23T17:19:26Z) - Understanding COVID-19 News Coverage using Medical NLP [5.161531917413708]
データセットには36,000以上の記事が含まれており、Spark NLP for Healthcareライブラリの臨床的および生物医学的自然言語処理(NLP)モデルを用いて分析されている。
この分析は、重要なエンティティとフレーズ、観察されたバイアス、そしてニュース報道における時間の経過とともに変化をカバーしている。
別の分析では、医薬品やワクチン製造者に関する逆薬イベントが抽出され、主要な報道機関によって報告された場合、ワクチンのヘシタシーに影響を及ぼす。
論文 参考訳(メタデータ) (2022-03-19T15:07:46Z) - COVIDx-US -- An open-access benchmark dataset of ultrasound imaging data
for AI-driven COVID-19 analytics [116.6248556979572]
COVIDx-USは、新型コロナウイルス関連超音波画像データのオープンアクセスベンチマークデータセットです。
肺超音波93本と,SARS-CoV-2肺炎,非SARS-CoV-2肺炎,健康管理症例10,774本からなる。
論文 参考訳(メタデータ) (2021-03-18T03:31:33Z) - Understanding the temporal evolution of COVID-19 research through
machine learning and natural language processing [66.63200823918429]
重症急性呼吸器症候群2号(SARS-CoV-2)による新型コロナウイルス感染症(COVID-19)の流行は、世界中の人々の生活や社会に影響を与え続けている。
私たちは複数のデータソース、すなわちPubMedとArXivを使用し、現在のCOVID-19研究の風景を特徴づけるために、いくつかの機械学習モデルを構築しました。
調査の結果,PubMedとArXivで利用可能な研究の種類は異なることが確認された。
論文 参考訳(メタデータ) (2020-07-22T18:02:39Z) - Pandemic Pulse: Unraveling and Modeling Social Signals during the
COVID-19 Pandemic [12.050597862123313]
新型コロナウイルス(COVID-19)のパンデミックが米国に与える影響の一部を表わす、社会データの収集を提示し、調査を始めます。
このデータは、様々な情報源から収集され、ニューストピック、ソーシャルディスタンシング行動、コミュニティモビリティの変化、Web検索などの経年的傾向を含む。
論文 参考訳(メタデータ) (2020-06-10T17:55:44Z) - Cross-lingual Transfer Learning for COVID-19 Outbreak Alignment [90.12602012910465]
われわれは、Twitterを通じてイタリアの新型コロナウイルス感染症(COVID-19)の早期流行を訓練し、他のいくつかの国に移る。
実験の結果,クロスカントリー予測において最大0.85のスピアマン相関が得られた。
論文 参考訳(メタデータ) (2020-06-05T02:04:25Z) - Mapping the Landscape of Artificial Intelligence Applications against
COVID-19 [59.30734371401316]
世界保健機関(WHO)は、SARS-CoV-2ウイルスによる新型コロナウイルスの感染をパンデミックと宣言した。
我々は、機械学習と、より広範に、人工知能を用いた最近の研究の概要を、新型コロナウイルス危機の多くの側面に取り組むために提示する。
論文 参考訳(メタデータ) (2020-03-25T12:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。