論文の概要: Streamlining Social Media Information Retrieval for Public Health
Research with Deep Learning
- arxiv url: http://arxiv.org/abs/2306.16001v1
- Date: Wed, 28 Jun 2023 08:20:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 15:16:29.917109
- Title: Streamlining Social Media Information Retrieval for Public Health
Research with Deep Learning
- Title(参考訳): ディープラーニングによる公衆衛生研究のためのソーシャルメディア情報検索の合理化
- Authors: Yining Hua, Shixu Lin, Minghui Li, Yujie Zhang, Peilin Zhou, Ying-Chih
Lo, Li Zhou, Jie Yang
- Abstract要約: 本研究では,医学用語体系とUMLS概念の広範な辞書を整理する枠組みを紹介する。
このフレームワークは、ソーシャルメディアコンテンツから医療エンティティを識別するBERTベースの名前付きエンティティ認識(NER)モデルと、抽出されたエンティティを標準化するディープラーニング駆動正規化モジュールと、最も確率の高いUMLS概念を標準化されたエンティティに割り当てる半教師付きクラスタリングモジュールの3つのモジュールから構成される。
- 参考スコア(独自算出の注目度): 17.853330362569675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The utilization of social media in epidemic surveillance has been well
established. Nonetheless, bias is often introduced when pre-defined lexicons
are used to retrieve relevant corpus. This study introduces a framework aimed
at curating extensive dictionaries of medical colloquialisms and Unified
Medical Language System (UMLS) concepts. The framework comprises three modules:
a BERT-based Named Entity Recognition (NER) model that identifies medical
entities from social media content, a deep-learning powered normalization
module that standardizes the extracted entities, and a semi-supervised
clustering module that assigns the most probable UMLS concept to each
standardized entity. We applied this framework to COVID-19-related tweets from
February 1, 2020, to April 30, 2022, generating a symptom dictionary (available
at https://github.com/ningkko/UMLS_colloquialism/) composed of 9,249
standardized entities mapped to 876 UMLS concepts and 38,175 colloquial
expressions. This framework demonstrates encouraging potential in addressing
the constraints of keyword matching information retrieval in social media-based
public health research.
- Abstract(参考訳): 流行監視におけるソーシャルメディアの利用はよく確立されている。
それでも、事前に定義されたレキシコンを用いて関連するコーパスを検索する場合、しばしばバイアスが発生する。
本研究は,医学用語体系とUMLS概念の広範な辞書のキュレーションを目的としたフレームワークを提案する。
このフレームワークは、ソーシャルメディアコンテンツから医療エンティティを識別するBERTベースの名前付きエンティティ認識(NER)モデルと、抽出されたエンティティを標準化するディープラーニング駆動正規化モジュールと、最も確率の高いUMLS概念を標準化されたエンティティに割り当てる半教師付きクラスタリングモジュールの3つのモジュールから構成される。
この枠組みを2020年2月1日から2022年4月30日までのCOVID-19関連ツイートに適用し,876 UMLS概念にマッピングされた9,249の標準化されたエンティティと38,175の言語表現からなる症状辞書(https://github.com/ningkko/UMLS_colloquialism/)を生成した。
この枠組みは,ソーシャルメディアを用いた公衆衛生研究におけるキーワードマッチング情報検索の制約に対処できる可能性を示す。
関連論文リスト
- ISPO: An Integrated Ontology of Symptom Phenotypes for Semantic Integration of Traditional Chinese Medical Data [24.36545694430613]
本研究は,中国EMRのデータマイニングとTCM分野における実世界研究を支援するために,ISPOの統合オントロジーを構築することを目的とした。
論文 参考訳(メタデータ) (2024-07-08T15:23:50Z) - KNSE: A Knowledge-aware Natural Language Inference Framework for
Dialogue Symptom Status Recognition [69.78432481474572]
症状状態認識(SSR)のための新しいフレームワークKNSEを提案する。
対話ウィンドウ内の各症状について、まず、症状の状態に関する症状と仮説に関する知識を生成し、(前提、知識、仮説)三重項を形成する。
次にBERTモデルを使用して三重項を符号化し、さらに発話アグリゲーション、自己アテンション、横断アテンション、GRUなどのモジュールで処理して症状状態を予測する。
論文 参考訳(メタデータ) (2023-05-26T11:23:26Z) - Biomedical Named Entity Recognition via Dictionary-based Synonym
Generalization [51.89486520806639]
本研究では,入力テキストに含まれる生物医学的概念をスパンベース予測を用いて認識する,新しいSynGenフレームワークを提案する。
提案手法を広範囲のベンチマークで広範囲に評価し,SynGenが従来の辞書ベースモデルよりも顕著なマージンで優れていることを確認した。
論文 参考訳(メタデータ) (2023-05-22T14:36:32Z) - Semantic Coherence Markers for the Early Diagnosis of the Alzheimer
Disease [0.0]
パープレキシティはもともと、与えられた言語モデルがテキストシーケンスを予測するのにどの程度適しているかを評価するための情報理論の尺度として考え出された。
我々は2グラムから5グラムまでのN-gramとトランスフォーマーベース言語モデルであるGPT-2を多種多様な言語モデルに適用した。
ベストパフォーマンスモデルでは、ADクラスと制御対象の両方から対象を分類する際に、完全精度とFスコア(精度/特異度とリコール/感度のそれぞれ1.00)を達成した。
論文 参考訳(メタデータ) (2023-02-02T11:40:16Z) - Semantic Similarity Models for Depression Severity Estimation [53.72188878602294]
本稿では、ソーシャルメディアの文章に基づいて、個人のうつ病の重症度を研究するための効率的なセマンティックパイプラインを提案する。
我々は,抑うつ症状と重度レベルに対応する代表訓練文の指標に対して意味的ランキングを生成するために,テストユーザ文を使用する。
本手法を2つのRedditベースのベンチマークで評価し,うつ病の重症度を指標として,最先端技術よりも30%改善した。
論文 参考訳(メタデータ) (2022-11-14T18:47:26Z) - RedHOT: A Corpus of Annotated Medical Questions, Experiences, and Claims
on Social Media [1.5293427903448022]
我々はReddit Health Online Talk (RedHOT)を紹介します。
これらの主張の中で、患者の人口、インターベンション、アウトカム(PIO)を記述したスニペットをマークします。
そこで本研究では,高密度検索モデルの学習に使用するタスクの監視(ノイズ)を自動的に導出する手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T15:50:32Z) - Semantic Search for Large Scale Clinical Ontologies [63.71950996116403]
本稿では,大規模臨床語彙検索システムを構築するための深層学習手法を提案する。
本稿では,意味学習データに基づくトレーニングデータを生成するTriplet-BERTモデルを提案する。
このモデルは,5つの実ベンチマークデータセットを用いて評価され,提案手法は自由テキストから概念,概念まで,概念語彙の検索において高い結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-01T05:15:42Z) - Influence of ASR and Language Model on Alzheimer's Disease Detection [2.4698886064068555]
画像から参加者の音声記述を転写するために,SotA ASRシステムを用いて分析する。
本研究では,ASRから仮説を復号化するための言語モデルが欠如していることから,単語の非標準列を補正する言語モデルの影響について検討する。
提案システムは、韻律と声質に基づく音響と、最も一般的な単語の最初の出現に基づく語彙的特徴を組み合わせる。
論文 参考訳(メタデータ) (2021-09-20T10:41:39Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - Improving Clinical Document Understanding on COVID-19 Research with
Spark NLP [0.0]
世界的な新型コロナウイルスのパンデミックの後、ウイルスを研究する科学論文の数は大幅に増加しました。
これまでの取り組みを3つの方法で改善する臨床テキストマイニングシステムを紹介します。
まず、健康、解剖学、リスクファクター、有害事象の社会的決定要因を含む100以上の異なるエンティティタイプを認識することができます。
第2に、テキスト処理パイプラインは、アサーション状態検出を含み、患者以外の誰かの存在、欠如、条件付き、または、患者に関する臨床事実を区別する。
論文 参考訳(メタデータ) (2020-12-07T19:17:05Z) - Pose-based Body Language Recognition for Emotion and Psychiatric Symptom
Interpretation [75.3147962600095]
通常のRGBビデオから始まるボディーランゲージに基づく感情認識のための自動フレームワークを提案する。
心理学者との連携により,精神症状予測の枠組みを拡張した。
提案されたフレームワークの特定のアプリケーションドメインは限られた量のデータしか供給しないため、フレームワークは小さなトレーニングセットで動作するように設計されている。
論文 参考訳(メタデータ) (2020-10-30T18:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。