論文の概要: Structured Insight from Unstructured Data: Large Language Models for SDOH-Driven Diabetes Risk Prediction
- arxiv url: http://arxiv.org/abs/2601.13388v1
- Date: Mon, 19 Jan 2026 20:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.059485
- Title: Structured Insight from Unstructured Data: Large Language Models for SDOH-Driven Diabetes Risk Prediction
- Title(参考訳): 非構造化データからの構造化洞察:SDOH駆動糖尿病リスク予測のための大規模言語モデル
- Authors: Sasha Ronaghi, Prerit Choudhary, David H Rehkopf, Bryant Lin,
- Abstract要約: 社会的健康決定因子(SDOH)は2型糖尿病(T2D)管理において重要な役割を果たすが、電子的な健康記録やリスク予測モデルが欠如していることが多い。
本研究では, 大規模言語モデル(LLM)を用いて, 構造化されたSDOH情報を非構造化患者の生活物語から抽出する。
- 参考スコア(独自算出の注目度): 0.9449650062296824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social determinants of health (SDOH) play a critical role in Type 2 Diabetes (T2D) management but are often absent from electronic health records and risk prediction models. Most individual-level SDOH data is collected through structured screening tools, which lack the flexibility to capture the complexity of patient experiences and unique needs of a clinic's population. This study explores the use of large language models (LLMs) to extract structured SDOH information from unstructured patient life stories and evaluate the predictive value of both the extracted features and the narratives themselves for assessing diabetes control. We collected unstructured interviews from 65 T2D patients aged 65 and older, focused on their lived experiences, social context, and diabetes management. These narratives were analyzed using LLMs with retrieval-augmented generation to produce concise, actionable qualitative summaries for clinical interpretation and structured quantitative SDOH ratings for risk prediction modeling. The structured SDOH ratings were used independently and in combination with traditional laboratory biomarkers as inputs to linear and tree-based machine learning models (Ridge, Lasso, Random Forest, and XGBoost) to demonstrate how unstructured narrative data can be applied in conventional risk prediction workflows. Finally, we evaluated several LLMs on their ability to predict a patient's level of diabetes control (low, medium, high) directly from interview text with A1C values redacted. LLMs achieved 60% accuracy in predicting diabetes control levels from interview text. This work demonstrates how LLMs can translate unstructured SDOH-related data into structured insights, offering a scalable approach to augment clinical risk models and decision-making.
- Abstract(参考訳): 社会的健康決定因子(SDOH)は2型糖尿病(T2D)管理において重要な役割を果たすが、電子的な健康記録やリスク予測モデルが欠如していることが多い。
個々のレベルのSDOHデータは構造化スクリーニングツールを通じて収集され、患者体験の複雑さや診療所人口のユニークなニーズを捉える柔軟性が欠如している。
本研究では, 大規模言語モデル(LLMs)を用いて非構造化患者生活物語から構造化されたSDOH情報を抽出し, 抽出した特徴と物語自体の予測値を糖尿病コントロールの評価に用いた。
65歳以上のT2D患者65名を対象に, 生活経験, 社会的文脈, 糖尿病管理に焦点を当てた非構造的面接を行った。
これらの物語は,臨床解釈のための簡潔で実用的な定性的な要約と,リスク予測モデルのための構造化された定量的SDOH評価を生成するために,LLMを用いて分析した。
構造化されたSDOHレーティングは、従来のバイオマーカーと独立して、線形およびツリーベースの機械学習モデル(Ridge、Lasso、Random Forest、XGBoost)への入力として使われ、従来のリスク予測ワークフローにおいて、非構造化された物語データがどのように適用できるかを実証した。
最後に,A1C値の面接テキストから直接患者の糖尿病コントロール(低,中,高)を予測できる能力について,いくつかのLCMを評価した。
LLMはインタビューテキストから糖尿病のコントロールレベルを予測する上で60%の精度を達成した。
この研究は、LSMが構造化されていないSDOH関連データを構造化された洞察に変換する方法を示し、臨床リスクモデルと意思決定を拡大するためのスケーラブルなアプローチを提供する。
関連論文リスト
- Generative Foundation Model for Structured and Unstructured Electronic Health Records [10.687198380096314]
Generative Deep patient (GDP)は、構造化EHR時系列をCNN-Transformerエンコーダでエンコードし、非構造化EHRと融合するマルチモーダル基礎モデルである。
MIMIC-IVでは,心不全AUROC=0.923,2型糖尿病AUROC=0.817,30日間の寛解AUROC=0.627であった。
論文 参考訳(メタデータ) (2025-08-22T03:05:09Z) - Adaptable Cardiovascular Disease Risk Prediction from Heterogeneous Data using Large Language Models [70.64969663547703]
AdaCVDは、英国バイオバンクから50万人以上の参加者を対象に、大規模な言語モデルに基づいて構築された適応可能なCVDリスク予測フレームワークである。
包括的かつ可変的な患者情報を柔軟に取り込み、構造化データと非構造化テキストの両方をシームレスに統合し、最小限の追加データを使用して新規患者の集団に迅速に適応する。
論文 参考訳(メタデータ) (2025-05-30T14:42:02Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - Large Language Models for Integrating Social Determinant of Health Data: A Case Study on Heart Failure 30-Day Readmission Prediction [4.042918413611158]
健康の社会的決定因子(SDOH)は、健康の結果に重要な役割を果たす。
最近のオープンデータイニシアチブは、より包括的なSDOHのビューを構築する機会を提供する。
大規模言語モデル(LLM)は、構造化されたデータを自動的にアノテートすることを約束している。
論文 参考訳(メタデータ) (2024-07-12T21:14:06Z) - Prompting Large Language Models for Zero-Shot Clinical Prediction with
Structured Longitudinal Electronic Health Record Data [7.815738943706123]
大規模言語モデル(LLM)は、伝統的に自然言語処理に向いている。
本研究では, GPT-4 などの LLM の EHR データへの適応性について検討する。
EHRデータの長手性、スパース性、知識を注入した性質に対応するため、本研究は特定の特徴を考慮に入れている。
論文 参考訳(メタデータ) (2024-01-25T20:14:50Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Informing clinical assessment by contextualizing post-hoc explanations
of risk prediction models in type-2 diabetes [50.8044927215346]
本研究は, 合併症リスク予測のシナリオを考察し, 患者の臨床状態に関する文脈に焦点を当てる。
我々は、リスク予測モデル推論に関する文脈を提示し、その受容性を評価するために、最先端のLLMをいくつか採用する。
本論文は,実世界における臨床症例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。
論文 参考訳(メタデータ) (2023-02-11T18:07:11Z) - Interpreting Deep Glucose Predictive Models for Diabetic People Using
RETAIN [4.692400531340393]
糖尿病患者における将来の血糖値予測のためのRETAINアーキテクチャについて検討した。
2段階のアテンションメカニズムのおかげで、RETAINモデルは解釈可能であり、標準的なニューラルネットワークと同じくらい効率的である。
論文 参考訳(メタデータ) (2020-09-08T13:20:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。