論文の概要: Large Language Models for Integrating Social Determinant of Health Data: A Case Study on Heart Failure 30-Day Readmission Prediction
- arxiv url: http://arxiv.org/abs/2407.09688v1
- Date: Fri, 12 Jul 2024 21:14:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 21:18:20.414773
- Title: Large Language Models for Integrating Social Determinant of Health Data: A Case Study on Heart Failure 30-Day Readmission Prediction
- Title(参考訳): 健康データの社会的決定因子統合のための大規模言語モデル:30日間の心不全予測を事例として
- Authors: Chase Fensore, Rodrigo M. Carrillo-Larco, Shivani A. Patel, Alanna A. Morris, Joyce C. Ho,
- Abstract要約: 健康の社会的決定因子(SDOH)は、健康の結果に重要な役割を果たす。
最近のオープンデータイニシアチブは、より包括的なSDOHのビューを構築する機会を提供する。
大規模言語モデル(LLM)は、構造化されたデータを自動的にアノテートすることを約束している。
- 参考スコア(独自算出の注目度): 4.042918413611158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social determinants of health (SDOH) $-$ the myriad of circumstances in which people live, grow, and age $-$ play an important role in health outcomes. However, existing outcome prediction models often only use proxies of SDOH as features. Recent open data initiatives present an opportunity to construct a more comprehensive view of SDOH, but manually integrating the most relevant data for individual patients becomes increasingly challenging as the volume and diversity of public SDOH data grows. Large language models (LLMs) have shown promise at automatically annotating structured data. Here, we conduct an end-to-end case study evaluating the feasibility of using LLMs to integrate SDOH data, and the utility of these SDOH features for clinical prediction. We first manually label 700+ variables from two publicly-accessible SDOH data sources to one of five semantic SDOH categories. Then, we benchmark performance of 9 open-source LLMs on this classification task. Finally, we train ML models to predict 30-day hospital readmission among 39k heart failure (HF) patients, and we compare the prediction performance of the categorized SDOH variables with standard clinical variables. Additionally, we investigate the impact of few-shot LLM prompting on LLM annotation performance, and perform a metadata ablation study on prompts to evaluate which information helps LLMs accurately annotate these variables. We find that some open-source LLMs can effectively, accurately annotate SDOH variables with zero-shot prompting without the need for fine-tuning. Crucially, when combined with standard clinical features, the LLM-annotated Neighborhood and Built Environment subset of the SDOH variables shows the best performance predicting 30-day readmission of HF patients.
- Abstract(参考訳): 社会的健康決定因子(SDOH)$-$は、人々が生活し、成長し、そして年齢が$-$が健康上の結果に重要な役割を果たす無数の状況である。
しかし、既存の結果予測モデルは、しばしばSDOHのプロキシのみを特徴として用いている。
最近のオープンデータイニシアチブは、より包括的なSDOHのビューを構築する機会を提供するが、公的なSDOHデータの量と多様性が増大するにつれて、個々の患者にとって最も関連性の高いデータを手作業で統合することはますます困難になっている。
大規模言語モデル(LLM)は、構造化されたデータを自動的にアノテートすることを約束している。
本稿では,LSMを用いたSDOHデータ統合の実現可能性と臨床予測におけるこれらのSDOH機能の有用性について,エンド・ツー・エンドのケーススタディを行った。
まず、2つの公開アクセス可能なSDOHデータソースから5つのセマンティックSDOHカテゴリの1つに700以上の変数を手動でラベル付けする。
そして,この分類課題において,9つのオープンソースLCMの性能をベンチマークする。
最後に,39k心不全(HF)患者の30日間の入院寛解を予測するためのMLモデルを訓練し,分類したSDOH変数の予測性能と標準臨床変数との比較を行った。
さらに,LLMのアノテーション性能に対する数発のLDMプロンプトの影響について検討し,それらの変数を正確に注釈づけする上でどの情報が役立つかを評価するプロンプトに関するメタデータのアブレーション研究を行う。
我々は,SDOH変数をゼロショットプロンプトで効果的に正確にアノテートできるオープンソースのLCMが,微調整を必要とせずに存在することを発見した。
要旨: 標準臨床特徴と組み合わせた場合, SDOH 変数の LLM アノテーションと構築環境サブセットは, HF 患者の30日間の寛解を予測できる最高の成績を示す。
関連論文リスト
- Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
本研究では,大規模言語モデル (LLM) を用いて予測モデルの事前分布を推定する手法を提案する。
本研究では,LLMがパラメータ分布を真に生成するかどうかを評価するとともに,文脈内学習と事前推論のためのモデル選択戦略を提案する。
その結果,LLMによる事前パラメータ分布は,低データ設定における非形式的先行よりも予測誤差を著しく低減することがわかった。
論文 参考訳(メタデータ) (2024-11-26T10:13:39Z) - Large language models enabled multiagent ensemble method for efficient EHR data labeling [9.481473827205159]
本研究では,MLにおける重要な課題であるデータラベリングに対処するため,LLMを用いた新しいマルチエージェントアンサンブル手法を提案する。
アンサンブルLLMと自然言語処理を用いて、推定精度98.2%の623,566ECGのMIMIC-IV ECGデータセットをラベル付けした。
我々は,1,405EHR臨床ノートの社会史セクションからSDOHを同定するために,アンサンブルLLMs法を適用し,競争性能も向上した。
論文 参考訳(メタデータ) (2024-10-21T22:12:00Z) - When Raw Data Prevails: Are Large Language Model Embeddings Effective in Numerical Data Representation for Medical Machine Learning Applications? [8.89829757177796]
大規模言語モデルの最後の隠れ状態からベクター表現が医療診断および予後に有効であることを示す。
我々は,異常な生理的データを表すため,ゼロショット設定の命令調整LDMに着目し,それらのユーティリティを特徴抽出器として評価する。
医学MLタスクでは生データの特徴が依然として有効であることが示唆されているが、ゼロショットLSM埋め込みは競争力のある結果を示している。
論文 参考訳(メタデータ) (2024-08-15T03:56:40Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - Prompting Large Language Models for Zero-Shot Clinical Prediction with
Structured Longitudinal Electronic Health Record Data [7.815738943706123]
大規模言語モデル(LLM)は、伝統的に自然言語処理に向いている。
本研究では, GPT-4 などの LLM の EHR データへの適応性について検討する。
EHRデータの長手性、スパース性、知識を注入した性質に対応するため、本研究は特定の特徴を考慮に入れている。
論文 参考訳(メタデータ) (2024-01-25T20:14:50Z) - SDOH-NLI: a Dataset for Inferring Social Determinants of Health from
Clinical Notes [13.991819517682574]
社会的および行動的健康決定因子(SDOH)は、健康結果を形成する上で重要な役割を果たす。
このタスクにNLPメソッドを使うことの進歩は、高品質な公開ラベル付きデータの不足によって妨げられている。
本稿では,公開ノートをベースとした新たなデータセットであるSDOH-NLIを紹介する。
論文 参考訳(メタデータ) (2023-10-27T19:09:30Z) - Retrieving Evidence from EHRs with LLMs: Possibilities and Challenges [18.56314471146199]
時間的制約を伴って患者に関連付けられた大量のメモは、実質的に不可能な証拠を手作業で特定する。
患者EHRにおける非構造的証拠を効率よく回収・要約するためのメカニズムとして, LLMを用いたゼロショット戦略を提案し, 評価した。
論文 参考訳(メタデータ) (2023-09-08T18:44:47Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。