論文の概要: SPEED++: A Multilingual Event Extraction Framework for Epidemic Prediction and Preparedness
- arxiv url: http://arxiv.org/abs/2410.18393v1
- Date: Thu, 24 Oct 2024 03:03:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:49:31.270068
- Title: SPEED++: A Multilingual Event Extraction Framework for Epidemic Prediction and Preparedness
- Title(参考訳): SPEED++: エピデミック予測と準備のための多言語イベント抽出フレームワーク
- Authors: Tanmay Parekh, Jeffrey Kwan, Jiarui Yu, Sparsh Johri, Hyosang Ahn, Sreya Muppalla, Kai-Wei Chang, Wei Wang, Nanyun Peng,
- Abstract要約: 多様な疾患や言語に対する流行イベント情報を抽出する,最初の多言語イベント抽出フレームワークを提案する。
各言語でデータに注釈を付けることは不可能であり、ゼロショット・クロスランガル・クロス・ディスリーズ・モデルを開発する。
われわれのフレームワークは、2019年12月初旬に中国のWeiboポストから、中国でのトレーニングなしに、新型コロナウイルスの流行を警告することができる。
- 参考スコア(独自算出の注目度): 73.73883111570458
- License:
- Abstract: Social media is often the first place where communities discuss the latest societal trends. Prior works have utilized this platform to extract epidemic-related information (e.g. infections, preventive measures) to provide early warnings for epidemic prediction. However, these works only focused on English posts, while epidemics can occur anywhere in the world, and early discussions are often in the local, non-English languages. In this work, we introduce the first multilingual Event Extraction (EE) framework SPEED++ for extracting epidemic event information for a wide range of diseases and languages. To this end, we extend a previous epidemic ontology with 20 argument roles; and curate our multilingual EE dataset SPEED++ comprising 5.1K tweets in four languages for four diseases. Annotating data in every language is infeasible; thus we develop zero-shot cross-lingual cross-disease models (i.e., training only on English COVID data) utilizing multilingual pre-training and show their efficacy in extracting epidemic-related events for 65 diverse languages across different diseases. Experiments demonstrate that our framework can provide epidemic warnings for COVID-19 in its earliest stages in Dec 2019 (3 weeks before global discussions) from Chinese Weibo posts without any training in Chinese. Furthermore, we exploit our framework's argument extraction capabilities to aggregate community epidemic discussions like symptoms and cure measures, aiding misinformation detection and public attention monitoring. Overall, we lay a strong foundation for multilingual epidemic preparedness.
- Abstract(参考訳): ソーシャルメディアはしばしば、コミュニティが最新の社会的傾向について議論する最初の場所である。
先行研究では、このプラットフォームを利用して疫病関連情報(例えば、感染症、予防措置)を抽出し、疫病予測の早期警告を提供している。
しかしながら、これらの著作は英語の投稿にのみ焦点をあて、疫病は世界中のどこでも起こり、初期の議論はしばしば現地の非英語言語で行われている。
本稿では,多言語イベント抽出(EE)フレームワークであるSPEED++について紹介する。
この目的のために,従来の流行オントロジーを20の引数ロールで拡張し,4つの言語で5.1Kのつぶやきを含む多言語EEデータセットSPEED++をキュレートする。
そこで我々は,多言語事前学習を利用したゼロショット・クロス・ディスリーズ・モデル(英語のCOVIDデータのみを用いたトレーニング)を開発し,異なる疾患にまたがる65言語に対する流行関連事象の抽出に有効であることを示す。
実験では、2019年12月の早い段階で、中国のWeiboポストから、中国国内でのトレーニングなしに、新型コロナウイルスの流行を警告できることを示した。
さらに,このフレームワークの議論抽出機能を利用して,症状や治療対策,誤報検出支援,公衆の注意監視など,コミュニティの疫学的な議論を集約する。
総じて、多言語感染予防のための強力な基盤を築いた。
関連論文リスト
- Multilingual Fine-Grained News Headline Hallucination Detection [40.62136051552646]
複数言語できめ細かなニュース見出しの幻覚検出データセットについて紹介する。
このデータセットには5つの言語で1万以上のペアが含まれており、それぞれに専門家による詳細な幻覚タイプが注釈付けされている。
本稿では,言語に依存した実演選択と粗粒化プロンプトという2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-22T18:37:53Z) - Event Detection from Social Media for Epidemic Prediction [76.90779562626541]
ソーシャルメディア投稿から疫病関連事象を抽出・分析する枠組みを構築した。
実験では、新型コロナウイルスベースのSPEEDで訓練されたEDモデルが、3つの目に見えない流行の流行を効果的に検出する方法が明らかにされている。
モンキーポックスのWHO流行宣言より4~9週間早く,抽出した事象の報告が急激な増加を示すことを示す。
論文 参考訳(メタデータ) (2024-04-02T06:31:17Z) - Med-UniC: Unifying Cross-Lingual Medical Vision-Language Pre-Training by
Diminishing Bias [38.26934474189853]
Med-UniC (Med-UniC) は、英語とスペイン語のマルチモーダル医療データを統合したものである。
Med-UniCは、5つの医療画像タスクと30以上の疾患を含む10のデータセットで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-31T14:28:19Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Sentiment and Emotion Classification of Epidemic Related Bilingual data
from Social Media [1.7109522466982476]
この研究は、パキスタンのデング流行に関連するtwitterやニュースサイトからのバイリンガル(ウルドゥー語と英語)データを活用している。
本研究は,パキスタンにおけるデング流行に関連するTwitterおよびNEWSウェブサイトのバイリンガル(ウルドゥー語と英語)データを利用した。
論文 参考訳(メタデータ) (2021-05-04T12:51:18Z) - TICO-19: the Translation Initiative for Covid-19 [112.5601530395345]
COvid-19の翻訳イニシアチブ(TICO-19)は、テストおよび開発データを、35の異なる言語でAIおよびMT研究者に提供した。
同じデータが表現されているすべての言語に変換されるため、テストや開発は、セット内の任意の言語のペアリングに対して行うことができる。
論文 参考訳(メタデータ) (2020-07-03T16:26:17Z) - Cross-lingual Transfer Learning for COVID-19 Outbreak Alignment [90.12602012910465]
われわれは、Twitterを通じてイタリアの新型コロナウイルス感染症(COVID-19)の早期流行を訓練し、他のいくつかの国に移る。
実験の結果,クロスカントリー予測において最大0.85のスピアマン相関が得られた。
論文 参考訳(メタデータ) (2020-06-05T02:04:25Z) - Tracking, exploring and analyzing recent developments in German-language
online press in the face of the coronavirus crisis: cOWIDplus Analysis and
cOWIDplus Viewer [62.997667081978825]
新型コロナウイルスのパンデミックは、世界が第二次世界大戦以来直面してきた最大の危機かもしれない。
私たちの主要なコミュニケーションツールとして言語に影響を与えているのも驚きではありません。
ドイツ語のサブセット上でこれらの効果をキャプチャし、説明するために設計された3つの相互接続リソースを提示する。
論文 参考訳(メタデータ) (2020-05-27T12:21:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。