論文の概要: Improving Social Determinants of Health Documentation in French EHRs Using Large Language Models
- arxiv url: http://arxiv.org/abs/2507.03433v1
- Date: Fri, 04 Jul 2025 09:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.73328
- Title: Improving Social Determinants of Health Documentation in French EHRs Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたフランスのEHRにおける健康文書化の社会的要因の改善
- Authors: Adrien Bazoge, Pacôme Constant dit Beaufils, Mohammed Hmitouch, Romain Bourcier, Emmanuel Morin, Richard Dufour, Béatrice Daille, Pierre-Antoine Gourraud, Matilde Karakachoff,
- Abstract要約: 健康の社会的決定因子(SDoH)は、健康結果、病気の進行、治療の順守、健康格差に影響を及ぼす。
本研究では,フランスの臨床ノートから13のSDoHカテゴリーを抽出するための大規模言語モデル(LLM)に基づくアプローチを提案する。
Flan-T5-Largeをフランスのナント大学病院で臨床ノートから注釈付き社会史のセクションで訓練した。
- 参考スコア(独自算出の注目度): 5.070772241416699
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Social determinants of health (SDoH) significantly influence health outcomes, shaping disease progression, treatment adherence, and health disparities. However, their documentation in structured electronic health records (EHRs) is often incomplete or missing. This study presents an approach based on large language models (LLMs) for extracting 13 SDoH categories from French clinical notes. We trained Flan-T5-Large on annotated social history sections from clinical notes at Nantes University Hospital, France. We evaluated the model at two levels: (i) identification of SDoH categories and associated values, and (ii) extraction of detailed SDoH with associated temporal and quantitative information. The model performance was assessed across four datasets, including two that we publicly release as open resources. The model achieved strong performance for identifying well-documented categories such as living condition, marital status, descendants, job, tobacco, and alcohol use (F1 score > 0.80). Performance was lower for categories with limited training data or highly variable expressions, such as employment status, housing, physical activity, income, and education. Our model identified 95.8% of patients with at least one SDoH, compared to 2.8% for ICD-10 codes from structured EHR data. Our error analysis showed that performance limitations were linked to annotation inconsistencies, reliance on English-centric tokenizer, and reduced generalizability due to the model being trained on social history sections only. These results demonstrate the effectiveness of NLP in improving the completeness of real-world SDoH data in a non-English EHR system.
- Abstract(参考訳): 健康の社会的決定因子(SDoH)は、健康結果、病気の進行、治療の順守、健康格差に著しく影響を及ぼす。
しかしながら、構造化された電子健康記録(EHR)における彼らの文書は、しばしば不完全または欠落している。
本研究では,フランスの臨床ノートから13のSDoHカテゴリーを抽出するための大規模言語モデル(LLM)に基づくアプローチを提案する。
Flan-T5-Largeをフランスのナント大学病院で臨床ノートから注釈付き社会史のセクションで訓練した。
私たちはそのモデルを2つのレベルで評価した。
(i)SDoHカテゴリ及び関連値の識別、及び
(II)関連する時間的・定量的情報を含む詳細なSDoHの抽出。
モデルのパフォーマンスは、4つのデータセットで評価されました。
このモデルは、生活条件、婚姻状況、子孫、仕事、タバコ、アルコール使用など、文書化されたカテゴリー(F1スコア=0.80)を識別する上で、高いパフォーマンスを達成した。
職業、住居、身体活動、収入、教育など、限られた訓練データや高度に変動した表現のカテゴリーでは、成績が低かった。
本モデルでは,少なくとも1例のSDoH症例の95.8%を,構造化ERHデータによるICD-10符号の2.8%と比較した。
誤り分析の結果, 性能制限は, 注釈の不整合, 英語中心のトークン化への依存, 社会史部にのみ訓練されたモデルによる一般化率の低下と関係していることがわかった。
これらの結果は,非英語EHRシステムにおける実世界のSDoHデータの完全性向上におけるNLPの有効性を示す。
関連論文リスト
- Extracting Patient History from Clinical Text: A Comparative Study of Clinical Large Language Models [3.1277841304339065]
本研究は,臨床大言語モデル(cLLMs)の医療史エンティティ(MHEs)認識における性能評価である。
MTSamplesレポジトリから61例の外来臨床ノートに1,449例の診断を行った。
cLLMsはMHEの抽出に要する時間を20%以上短縮する可能性を示した。
論文 参考訳(メタデータ) (2025-03-30T02:00:56Z) - SDoH-GPT: Using Large Language Models to Extract Social Determinants of Health (SDoH) [43.79125048893811]
SDoH-GPTは,医療用ノートから健康の社会的決定因子を抽出する,シンプルで効果的なLarge Language Model (LLM) 法である。
これは時間とコストでそれぞれ10倍と20倍の削減を実現し、コーエンのカッパの最大0.92で測定された人間のアノテータとの整合性が向上した。
本研究は, LLMを医療ノート分類に革命をもたらす可能性を強調し, 時間とコストを大幅に削減して, 高精度な分類を実現する能力を示す。
論文 参考訳(メタデータ) (2024-07-24T09:57:51Z) - Extracting Social Determinants of Health from Pediatric Patient Notes Using Large Language Models: Novel Corpus and Methods [17.83326146480516]
健康の社会的決定因子(SDoH)は、健康結果を形成する上で重要な役割を担っている。
小児社会史コーパス(PedSHAC)について紹介する。
我々は、微調整および文脈内学習手法を用いて、詳細なSDoH表現の自動抽出を評価する。
論文 参考訳(メタデータ) (2024-03-31T23:37:18Z) - Sensitivity, Performance, Robustness: Deconstructing the Effect of
Sociodemographic Prompting [64.80538055623842]
社会デマトグラフィープロンプトは、特定の社会デマトグラフィープロファイルを持つ人間が与える答えに向けて、プロンプトベースのモデルの出力を操縦する技術である。
ソシオデマトグラフィー情報はモデル予測に影響を及ぼし、主観的NLPタスクにおけるゼロショット学習を改善するのに有用であることを示す。
論文 参考訳(メタデータ) (2023-09-13T15:42:06Z) - Large Language Models to Identify Social Determinants of Health in
Electronic Health Records [2.168737004368243]
健康の社会的決定因子(SDoH)は、患者の結果に重要な影響を与えるが、電子健康記録(EHR)から不完全に収集される。
本研究では,EHRにおける自由テキストからSDoHを抽出する大規模言語モデルについて検討した。
800の患者ノートをSDoHカテゴリーにアノテートし,いくつかのトランスフォーマーモデルを評価した。
論文 参考訳(メタデータ) (2023-08-11T19:18:35Z) - Clinical Deterioration Prediction in Brazilian Hospitals Based on
Artificial Neural Networks and Tree Decision Models [56.93322937189087]
超強化ニューラルネットワーク(XBNet)は臨床劣化(CD)を予測するために用いられる
XGBoostモデルはブラジルの病院のデータからCDを予測する最良の結果を得た。
論文 参考訳(メタデータ) (2022-12-17T23:29:14Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。