論文の概要: Large Language Models to Identify Social Determinants of Health in
Electronic Health Records
- arxiv url: http://arxiv.org/abs/2308.06354v1
- Date: Fri, 11 Aug 2023 19:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 17:53:51.218468
- Title: Large Language Models to Identify Social Determinants of Health in
Electronic Health Records
- Title(参考訳): 電子健康記録における社会要因の同定のための大規模言語モデル
- Authors: Marco Guevara, Shan Chen, Spencer Thomas, Tafadzwa L. Chaunzwa, Idalid
Franco, Benjamin Kann, Shalini Moningi, Jack Qian, Madeleine Goldstein, Susan
Harper, Hugo JWL Aerts, Guergana K. Savova, Raymond H. Mak, Danielle S.
Bitterman
- Abstract要約: 健康の社会的決定因子(SDoH)は、患者の結果に重要な影響を与えるが、電子健康記録(EHR)から不完全に収集される。
本研究では,EHRにおける自由テキストからSDoHを抽出する大規模言語モデルについて検討した。
800の患者ノートをSDoHカテゴリーにアノテートし,いくつかのトランスフォーマーモデルを評価した。
- 参考スコア(独自算出の注目度): 2.168737004368243
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Social determinants of health (SDoH) have an important impact on patient
outcomes but are incompletely collected from the electronic health records
(EHR). This study researched the ability of large language models to extract
SDoH from free text in EHRs, where they are most commonly documented, and
explored the role of synthetic clinical text for improving the extraction of
these scarcely documented, yet extremely valuable, clinical data. 800 patient
notes were annotated for SDoH categories, and several transformer-based models
were evaluated. The study also experimented with synthetic data generation and
assessed for algorithmic bias. Our best-performing models were fine-tuned
Flan-T5 XL (macro-F1 0.71) for any SDoH, and Flan-T5 XXL (macro-F1 0.70). The
benefit of augmenting fine-tuning with synthetic data varied across model
architecture and size, with smaller Flan-T5 models (base and large) showing the
greatest improvements in performance (delta F1 +0.12 to +0.23). Model
performance was similar on the in-hospital system dataset but worse on the
MIMIC-III dataset. Our best-performing fine-tuned models outperformed zero- and
few-shot performance of ChatGPT-family models for both tasks. These fine-tuned
models were less likely than ChatGPT to change their prediction when
race/ethnicity and gender descriptors were added to the text, suggesting less
algorithmic bias (p<0.05). At the patient-level, our models identified 93.8% of
patients with adverse SDoH, while ICD-10 codes captured 2.0%. Our method can
effectively extracted SDoH information from clinic notes, performing better
compare to GPT zero- and few-shot settings. These models could enhance
real-world evidence on SDoH and aid in identifying patients needing social
support.
- Abstract(参考訳): SDoH (Social Determinants of Health) は、患者の成績に重要な影響を与えるが、電子健康記録 (EHR) から不完全に収集される。
本研究は, EHRにおける自由テキストからSDoHを抽出する大規模言語モデルの有用性について検討し, 少ないが極めて価値のある臨床データの抽出を改善するために, 合成臨床テキストの役割について検討した。
800の患者ノートをSDoHカテゴリーにアノテートし,いくつかのトランスフォーマーモデルを評価した。
また,合成データ生成実験を行い,アルゴリズムバイアスの評価を行った。
我々の最高の性能モデルは、どのSDoHでもFlan-T5 XL(macro-F1 0.71)、Flan-T5 XXL(macro-F1 0.70)でした。
合成データによる微調整の利点は、モデルアーキテクチャやサイズによって異なり、より小さなFlan-T5モデル(ベースと大型)では、パフォーマンスが最大(デルタF1+0.12から+0.23)向上した。
モデル性能は病院内システムデータセットと似ているが、MIMIC-IIIデータセットでは悪い。
最も優れた微調整モデルでは、両方のタスクにおいてChatGPTファミリーモデルのゼロおよび少数ショットのパフォーマンスが向上した。
これらの微調整されたモデルは、人種・民族性や性別記述子をテキストに追加した場合の予測をChatGPTより変更する可能性が低く、アルゴリズムバイアスが低い(p<0.05。
患者レベルでは, 有害なSDoH症例の93.8%, ICD-10は2.0%であった。
本手法は,臨床ノートからsdoh情報を効果的に抽出し,gptゼロショットおよびマイショット設定と比較する。
これらのモデルは、SDoHに関する現実世界の証拠を高め、社会的支援を必要とする患者を特定する助けになるかもしれない。
関連論文リスト
- Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks [0.7071166713283337]
私たちは機械学習モデルをトレーニングするのに十分な規模のデータセットを作成しました。
私たちのゴールは自閉症の基準に対応する行動のラベル付けです。
データの増大はリコールを13%増加させたが、精度は16%低下した。
論文 参考訳(メタデータ) (2024-05-08T03:18:12Z) - Socially Aware Synthetic Data Generation for Suicidal Ideation Detection
Using Large Language Models [8.832297887534445]
我々は、生成AIモデルの能力を活用して、自殺的思考検出のための合成データを作成する革新的な戦略を導入する。
我々は、最先端のNLP分類モデル、特にBERTファミリー構造を中心としてベンチマークを行った。
我々の合成データ駆動方式は,両モデルに一貫したF1スコア(0.82)を提供する。
論文 参考訳(メタデータ) (2024-01-25T18:25:05Z) - NLICE: Synthetic Medical Record Generation for Effective Primary
Healthcare Differential Diagnosis [0.765458997723296]
患者記録の作成には,SymCatという公衆疾患症状データソースを用いている。
合成データの表現性を高めるために,NLICEと呼ばれる医学標準化された症状モデリング手法を用いる。
予測疾患モデルをトレーニングするためのデータセットの有効性を示す。
論文 参考訳(メタデータ) (2024-01-24T19:17:45Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Clinical Deterioration Prediction in Brazilian Hospitals Based on
Artificial Neural Networks and Tree Decision Models [56.93322937189087]
超強化ニューラルネットワーク(XBNet)は臨床劣化(CD)を予測するために用いられる
XGBoostモデルはブラジルの病院のデータからCDを予測する最良の結果を得た。
論文 参考訳(メタデータ) (2022-12-17T23:29:14Z) - Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。
生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。
今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文 参考訳(メタデータ) (2022-11-13T01:07:23Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z) - Med7: a transferable clinical natural language processing model for
electronic health records [6.935142529928062]
本稿では,臨床自然言語処理のための匿名認識モデルを提案する。
このモデルは、薬物名、ルート、頻度、摂取量、強度、形態、期間の7つのカテゴリを認識するよう訓練されている。
本研究は、米国における集中治療室のデータから、英国における二次医療精神保健記録(CRIS)へのモデル導入可能性を評価するものである。
論文 参考訳(メタデータ) (2020-03-03T00:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。