論文の概要: METS-CoV: A Dataset of Medical Entity and Targeted Sentiment on COVID-19
Related Tweets
- arxiv url: http://arxiv.org/abs/2209.13773v1
- Date: Wed, 28 Sep 2022 01:55:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 16:46:51.546480
- Title: METS-CoV: A Dataset of Medical Entity and Targeted Sentiment on COVID-19
Related Tweets
- Title(参考訳): mets-cov:covid-19関連ツイートに対する医療団体のデータセットとターゲット感情
- Authors: Peilin Zhou, Zeqiang Wang, Dading Chong, Zhijiang Guo, Yining Hua,
Zichang Su, Zhiyang Teng, Jiageng Wu, Jie Yang
- Abstract要約: 本稿では、医療機関と新型コロナウイルス関連ツイートのターゲット感情を含むデータセットであるMETS-CoVをリリースする。
私たちの知る限りでは、METS-CoVは、新型コロナウイルス関連ツイートの医療機関とそれに対応する感情を収集する最初のデータセットです。
- 参考スコア(独自算出の注目度): 13.35986397208115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The COVID-19 pandemic continues to bring up various topics discussed or
debated on social media. In order to explore the impact of pandemics on
people's lives, it is crucial to understand the public's concerns and attitudes
towards pandemic-related entities (e.g., drugs, vaccines) on social media.
However, models trained on existing named entity recognition (NER) or targeted
sentiment analysis (TSA) datasets have limited ability to understand
COVID-19-related social media texts because these datasets are not designed or
annotated from a medical perspective. This paper releases METS-CoV, a dataset
containing medical entities and targeted sentiments from COVID-19-related
tweets. METS-CoV contains 10,000 tweets with 7 types of entities, including 4
medical entity types (Disease, Drug, Symptom, and Vaccine) and 3 general entity
types (Person, Location, and Organization). To further investigate tweet users'
attitudes toward specific entities, 4 types of entities (Person, Organization,
Drug, and Vaccine) are selected and annotated with user sentiments, resulting
in a targeted sentiment dataset with 9,101 entities (in 5,278 tweets). To the
best of our knowledge, METS-CoV is the first dataset to collect medical
entities and corresponding sentiments of COVID-19-related tweets. We benchmark
the performance of classical machine learning models and state-of-the-art deep
learning models on NER and TSA tasks with extensive experiments. Results show
that the dataset has vast room for improvement for both NER and TSA tasks.
METS-CoV is an important resource for developing better medical social media
tools and facilitating computational social science research, especially in
epidemiology. Our data, annotation guidelines, benchmark models, and source
code are publicly available (https://github.com/YLab-Open/METS-CoV) to ensure
reproducibility.
- Abstract(参考訳): 新型コロナウイルス(covid-19)のパンデミックは、ソーシャルメディア上で議論や議論が続いている。
パンデミックが人々の生活に与える影響を調べるためには、ソーシャルメディア上でのパンデミック関連団体(医薬品、ワクチンなど)に対する人々の関心や態度を理解することが不可欠である。
しかしながら、既存の名前付きエンティティ認識(NER)やターゲット感情分析(TSA)データセットに基づいてトレーニングされたモデルは、これらのデータセットが医療的な観点から設計または注釈付けされていないため、新型コロナウイルス関連のソーシャルメディアテキストを理解する能力に制限がある。
本稿では、医療機関と新型コロナウイルス関連ツイートのターゲット感情を含むデータセットMETS-CoVをリリースする。
METS-CoVには、Disease, Drug, Symptom, Vaccine)と3つの一般的なエンティティ(Person, Location, Organization)を含む7種類のエンティティを持つ1万のツイートが含まれている。
特定の実体に対するユーザーの態度をさらに調査するために、4種類の実体(人、組織、薬物、ワクチン)を選択・注釈付けし、9,101の実体(5,278ツイート)を対象とする感情データセットを作成する。
私たちの知る限りでは、METS-CoVは新型コロナウイルス関連ツイートの医療機関とそれに対応する感情を収集する最初のデータセットです。
我々は,nerタスクとtsaタスクにおける古典的機械学習モデルと最先端ディープラーニングモデルの性能を広範囲な実験でベンチマークする。
結果から,データセットには NER タスクと TSA タスクの両方の改善の余地があることが分かる。
METS-CoVは、医療用ソーシャルメディアツールを開発し、特に疫学において計算社会科学研究を促進するための重要な資源である。
我々のデータ、アノテーションガイドライン、ベンチマークモデル、およびソースコードは、再現性を確保するために公開されています(https://github.com/YLab-Open/METS-CoV)。
関連論文リスト
- ThangDLU at #SMM4H 2024: Encoder-decoder models for classifying text data on social disorders in children and adolescents [49.00494558898933]
本稿では,#SMM4H (Social Media Mining for Health) 2024 Workshopのタスク3とタスク5への参加について述べる。
タスク3は、屋外環境が社会不安の症状に与える影響を議論するツイートを中心にした多クラス分類タスクである。
タスク5は、子供の医学的障害を報告しているツイートに焦点を当てたバイナリ分類タスクを含む。
BART-baseやT5-smallのような事前訓練されたエンコーダデコーダモデルからの転送学習を適用し、与えられたツイートの集合のラベルを同定した。
論文 参考訳(メタデータ) (2024-04-30T17:06:20Z) - Data and models for stance and premise detection in COVID-19 tweets:
insights from the Social Media Mining for Health (SMM4H) 2022 shared task [7.559611243635055]
ソーシャル・メディア・マイニング・フォー・ヘルス(SMM4H)2022 共有タスク2を編成する。
このコンペティションでは、学校閉鎖、自宅待機命令、マスク着用の3つのトピックについて、手動でアノテートされた投稿を利用した。
我々は,Twitterから新たに収集したワクチン接種データを用いて,異なるトピックのモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-11-14T10:30:49Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - CAVES: A Dataset to facilitate Explainable Classification and
Summarization of Concerns towards COVID Vaccines [18.617543658780367]
CAVESは、新型コロナウイルス(COVID-19)の抗ワクチンツイートをさまざまな特定の抗ワクチンの懸念にラベル付けした最初の大規模データセットです。
これはまた、ラベルごとに説明を提供する最初のマルチラベル分類データセットである。
論文 参考訳(メタデータ) (2022-04-28T19:26:54Z) - CoVERT: A Corpus of Fact-checked Biomedical COVID-19 Tweets [10.536415845097661]
CoVERTは事実確認されたツイートのコーパスで、バイオメディシンと新型コロナウイルス関連の情報(ミス)に焦点を当てている。
我々は、新しいクラウドソーシング手法を用いて、すべてのツイートにファクトチェックラベルを付加し、クラウドワーカーがオンラインで検索する証拠を支持する。
得られたエビデンス抽出をファクトチェックパイプラインの一部として使用し、実世界のエビデンスの方が、事前訓練された言語モデルで間接的に利用できる知識よりも有用であることを確認した。
論文 参考訳(メタデータ) (2022-04-26T09:05:03Z) - Recovering Patient Journeys: A Corpus of Biomedical Entities and
Relations on Twitter (BEAR) [12.447379545167642]
本論文は,患者への旅行や経験を探索し,モデル化する動機として,アノテーション層を多用したコーパスを提案する。
我々は14のエンティティクラス(環境要因、診断、生化学的プロセス、患者のQOL、病原体、医療状況、治療など)と20の関連クラス(予防、影響、相互作用、原因など)をラベル付けする。
公開データセットは2,100のつぶやきと約6,000のエンティティと3,000のリレーショナルアノテーションで構成されている。
論文 参考訳(メタデータ) (2022-04-21T08:18:44Z) - When Accuracy Meets Privacy: Two-Stage Federated Transfer Learning
Framework in Classification of Medical Images on Limited Data: A COVID-19
Case Study [77.34726150561087]
新型コロナウイルスのパンデミックが急速に広がり、世界の医療資源が不足している。
CNNは医療画像の解析に広く利用され、検証されている。
論文 参考訳(メタデータ) (2022-03-24T02:09:41Z) - CML-COVID: A Large-Scale COVID-19 Twitter Dataset with Latent Topics,
Sentiment and Location Information [0.0]
CML-COVID(CML-COVID)は、新型コロナウイルス(COVID-19)による5,977,653人のツイート19,298,967万件のTwitterデータセットである。
これらのツイートは、2020年3月から7月にかけて、新型コロナウイルスに関連する質問文、コビッド、マスクを使って収集された。
論文 参考訳(メタデータ) (2021-01-28T18:59:10Z) - MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware
Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。
MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。
実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T03:34:33Z) - CO-Search: COVID-19 Information Retrieval with Semantic Search, Question
Answering, and Abstractive Summarization [53.67205506042232]
CO-Searchは、新型コロナウイルスの文献上の複雑なクエリを処理するように設計された、レトリバーランサーセマンティック検索エンジンである。
ドメイン固有の比較的限られたデータセットを考慮し、文書の段落と引用の2部グラフを生成する。
TREC-COVID情報検索課題のデータに基づいて,本システムの評価を行った。
論文 参考訳(メタデータ) (2020-06-17T01:32:48Z) - Mapping the Landscape of Artificial Intelligence Applications against
COVID-19 [59.30734371401316]
世界保健機関(WHO)は、SARS-CoV-2ウイルスによる新型コロナウイルスの感染をパンデミックと宣言した。
我々は、機械学習と、より広範に、人工知能を用いた最近の研究の概要を、新型コロナウイルス危機の多くの側面に取り組むために提示する。
論文 参考訳(メタデータ) (2020-03-25T12:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。