論文の概要: Streamlining Social Media Information Extraction for Public Health
Research with Deep Learning
- arxiv url: http://arxiv.org/abs/2306.16001v2
- Date: Mon, 22 Jan 2024 00:27:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 21:27:03.534455
- Title: Streamlining Social Media Information Extraction for Public Health
Research with Deep Learning
- Title(参考訳): 深層学習による公衆衛生研究のためのソーシャルメディア情報抽出の合理化
- Authors: Yining Hua, Shixu Lin, Minghui Li, Yujie Zhang, Dinah Foer, Siwen
Wang, Peilin Zhou, Li Zhou, Jie Yang
- Abstract要約: ソーシャルメディアを基盤とする公衆衛生研究は、疫病の監視に不可欠である。
ほとんどの研究はキーワードマッチングで関連するコーパスを識別する。
本研究は,口語医学辞典の整理過程を合理化するシステムを開発した。
- 参考スコア(独自算出の注目度): 20.48874617775236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective: Social media-based public health research is crucial for epidemic
surveillance, but most studies identify relevant corpora with keyword matching.
This study develops a system to streamline the process of curating colloquial
medical dictionaries. We demonstrate the pipeline by curating a UMLS-colloquial
symptom dictionary from COVID-19-related tweets as proof of concept. Methods:
COVID-19-related tweets from February 1, 2020, to April 30, 2022 were used. The
pipeline includes three modules: a named entity recognition module to detect
symptoms in tweets; an entity normalization module to aggregate detected
entities; and a mapping module that iteratively maps entities to Unified
Medical Language System concepts. A random 500 entity sample were drawn from
the final dictionary for accuracy validation. Additionally, we conducted a
symptom frequency distribution analysis to compare our dictionary to a
pre-defined lexicon from previous research. Results: We identified 498,480
unique symptom entity expressions from the tweets. Pre-processing reduces the
number to 18,226. The final dictionary contains 38,175 unique expressions of
symptoms that can be mapped to 966 UMLS concepts (accuracy = 95%). Symptom
distribution analysis found that our dictionary detects more symptoms and is
effective at identifying psychiatric disorders like anxiety and depression,
often missed by pre-defined lexicons. Conclusion: This study advances public
health research by implementing a novel, systematic pipeline for curating
symptom lexicons from social media data. The final lexicon's high accuracy,
validated by medical professionals, underscores the potential of this
methodology to reliably interpret and categorize vast amounts of unstructured
social media data into actionable medical insights across diverse linguistic
and regional landscapes.
- Abstract(参考訳): 目的:ソーシャルメディアに基づく公衆衛生研究は疫病の監視に不可欠であるが、ほとんどの研究はキーワードマッチングで関連するコーパスを特定する。
本研究は,口語医学辞典の整理過程を合理化するシステムを開発した。
我々は、新型コロナウイルス関連ツイートからUMLS-coloquial symptom dictionaryを算出し、そのパイプラインを概念実証として示す。
方法:2020年2月1日から2022年4月30日までのcovid-19関連ツイートを用いた。
パイプラインには、ツイート中の症状を検出する名前付きエンティティ認識モジュール、検出されたエンティティを集約するエンティティ正規化モジュール、エンティティを統一医療言語システムの概念に反復的にマッピングするマッピングモジュールの3つのモジュールが含まれている。
正確な検証のために、最終辞書からランダムな500エンティティのサンプルが引き出された。
さらに, 先行研究から, 辞書を予め定義された辞書と比較するために, 症状頻度分布解析を行った。
結果: ツイートから498,480のユニークな症状を抽出した。
プリプロセッシングは18,226まで減少する。
最終辞書には、966 UMLSの概念にマッピングできる症状の38,175のユニークな表現が含まれている(精度=95%)。
症状分布分析の結果,我々の辞書はより多くの症状を検知し,不安やうつ病などの精神疾患の同定に有効であることが判明した。
結論: 本研究は, ソーシャルメディアデータから症状レキシコンをキュレートするための新しい体系的パイプラインを導入することで, 公衆衛生研究を前進させる。
医療専門家によって検証された最終レキシコンの高精度さは、この手法が膨大な量の構造化されていないソーシャルメディアデータを、多様な地域・地域景観にまたがる実用的な医学的洞察に確実に解釈し分類する可能性を強調している。
関連論文リスト
- ISPO: An Integrated Ontology of Symptom Phenotypes for Semantic Integration of Traditional Chinese Medical Data [24.36545694430613]
本研究は,中国EMRのデータマイニングとTCM分野における実世界研究を支援するために,ISPOの統合オントロジーを構築することを目的とした。
論文 参考訳(メタデータ) (2024-07-08T15:23:50Z) - KNSE: A Knowledge-aware Natural Language Inference Framework for
Dialogue Symptom Status Recognition [69.78432481474572]
症状状態認識(SSR)のための新しいフレームワークKNSEを提案する。
対話ウィンドウ内の各症状について、まず、症状の状態に関する症状と仮説に関する知識を生成し、(前提、知識、仮説)三重項を形成する。
次にBERTモデルを使用して三重項を符号化し、さらに発話アグリゲーション、自己アテンション、横断アテンション、GRUなどのモジュールで処理して症状状態を予測する。
論文 参考訳(メタデータ) (2023-05-26T11:23:26Z) - Biomedical Named Entity Recognition via Dictionary-based Synonym
Generalization [51.89486520806639]
本研究では,入力テキストに含まれる生物医学的概念をスパンベース予測を用いて認識する,新しいSynGenフレームワークを提案する。
提案手法を広範囲のベンチマークで広範囲に評価し,SynGenが従来の辞書ベースモデルよりも顕著なマージンで優れていることを確認した。
論文 参考訳(メタデータ) (2023-05-22T14:36:32Z) - Semantic Coherence Markers for the Early Diagnosis of the Alzheimer
Disease [0.0]
パープレキシティはもともと、与えられた言語モデルがテキストシーケンスを予測するのにどの程度適しているかを評価するための情報理論の尺度として考え出された。
我々は2グラムから5グラムまでのN-gramとトランスフォーマーベース言語モデルであるGPT-2を多種多様な言語モデルに適用した。
ベストパフォーマンスモデルでは、ADクラスと制御対象の両方から対象を分類する際に、完全精度とFスコア(精度/特異度とリコール/感度のそれぞれ1.00)を達成した。
論文 参考訳(メタデータ) (2023-02-02T11:40:16Z) - Semantic Similarity Models for Depression Severity Estimation [53.72188878602294]
本稿では、ソーシャルメディアの文章に基づいて、個人のうつ病の重症度を研究するための効率的なセマンティックパイプラインを提案する。
我々は,抑うつ症状と重度レベルに対応する代表訓練文の指標に対して意味的ランキングを生成するために,テストユーザ文を使用する。
本手法を2つのRedditベースのベンチマークで評価し,うつ病の重症度を指標として,最先端技術よりも30%改善した。
論文 参考訳(メタデータ) (2022-11-14T18:47:26Z) - RedHOT: A Corpus of Annotated Medical Questions, Experiences, and Claims
on Social Media [1.5293427903448022]
我々はReddit Health Online Talk (RedHOT)を紹介します。
これらの主張の中で、患者の人口、インターベンション、アウトカム(PIO)を記述したスニペットをマークします。
そこで本研究では,高密度検索モデルの学習に使用するタスクの監視(ノイズ)を自動的に導出する手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T15:50:32Z) - Semantic Search for Large Scale Clinical Ontologies [63.71950996116403]
本稿では,大規模臨床語彙検索システムを構築するための深層学習手法を提案する。
本稿では,意味学習データに基づくトレーニングデータを生成するTriplet-BERTモデルを提案する。
このモデルは,5つの実ベンチマークデータセットを用いて評価され,提案手法は自由テキストから概念,概念まで,概念語彙の検索において高い結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-01T05:15:42Z) - Influence of ASR and Language Model on Alzheimer's Disease Detection [2.4698886064068555]
画像から参加者の音声記述を転写するために,SotA ASRシステムを用いて分析する。
本研究では,ASRから仮説を復号化するための言語モデルが欠如していることから,単語の非標準列を補正する言語モデルの影響について検討する。
提案システムは、韻律と声質に基づく音響と、最も一般的な単語の最初の出現に基づく語彙的特徴を組み合わせる。
論文 参考訳(メタデータ) (2021-09-20T10:41:39Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - Improving Clinical Document Understanding on COVID-19 Research with
Spark NLP [0.0]
世界的な新型コロナウイルスのパンデミックの後、ウイルスを研究する科学論文の数は大幅に増加しました。
これまでの取り組みを3つの方法で改善する臨床テキストマイニングシステムを紹介します。
まず、健康、解剖学、リスクファクター、有害事象の社会的決定要因を含む100以上の異なるエンティティタイプを認識することができます。
第2に、テキスト処理パイプラインは、アサーション状態検出を含み、患者以外の誰かの存在、欠如、条件付き、または、患者に関する臨床事実を区別する。
論文 参考訳(メタデータ) (2020-12-07T19:17:05Z) - Pose-based Body Language Recognition for Emotion and Psychiatric Symptom
Interpretation [75.3147962600095]
通常のRGBビデオから始まるボディーランゲージに基づく感情認識のための自動フレームワークを提案する。
心理学者との連携により,精神症状予測の枠組みを拡張した。
提案されたフレームワークの特定のアプリケーションドメインは限られた量のデータしか供給しないため、フレームワークは小さなトレーニングセットで動作するように設計されている。
論文 参考訳(メタデータ) (2020-10-30T18:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。