論文の概要: SynthEHR-Eviction: Enhancing Eviction SDoH Detection with LLM-Augmented Synthetic EHR Data
- arxiv url: http://arxiv.org/abs/2507.07421v1
- Date: Thu, 10 Jul 2025 04:31:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.276265
- Title: SynthEHR-Eviction: Enhancing Eviction SDoH Detection with LLM-Augmented Synthetic EHR Data
- Title(参考訳): SynthEHR-Eviction: LLM強化合成EHRデータによるSDoH検出の高速化
- Authors: Zonghai Yao, Youxia Zhao, Avijit Mitra, David A. Levy, Emily Druhl, Jack Tsai, Hong Yu,
- Abstract要約: 退去は、住宅の不安定性、失業、精神健康と結びついている、重要な未調査の社会的健康決定要因である。
我々は,LLM,Human-in-the-loopアノテーション,自動プロンプト最適化(APO)を組み合わせたスケーラブルなパイプラインであるSynthEHR-Evictionを導入し,臨床ノートから退院状況の抽出を行う。
SDoHデータセットはこれまでに14の細粒度カテゴリからなる最大規模のパブリックエビクション関連データセットを作成している。
- 参考スコア(独自算出の注目度): 6.437663907681656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Eviction is a significant yet understudied social determinants of health (SDoH), linked to housing instability, unemployment, and mental health. While eviction appears in unstructured electronic health records (EHRs), it is rarely coded in structured fields, limiting downstream applications. We introduce SynthEHR-Eviction, a scalable pipeline combining LLMs, human-in-the-loop annotation, and automated prompt optimization (APO) to extract eviction statuses from clinical notes. Using this pipeline, we created the largest public eviction-related SDoH dataset to date, comprising 14 fine-grained categories. Fine-tuned LLMs (e.g., Qwen2.5, LLaMA3) trained on SynthEHR-Eviction achieved Macro-F1 scores of 88.8% (eviction) and 90.3% (other SDoH) on human validated data, outperforming GPT-4o-APO (87.8%, 87.3%), GPT-4o-mini-APO (69.1%, 78.1%), and BioBERT (60.7%, 68.3%), while enabling cost-effective deployment across various model sizes. The pipeline reduces annotation effort by over 80%, accelerates dataset creation, enables scalable eviction detection, and generalizes to other information extraction tasks.
- Abstract(参考訳): 退去は、住宅の不安定性、失業、精神健康と結びついている、重要な未調査の社会的健康決定要因である。
排除は構造化されていない電子健康記録(EHR)に現れるが、構造化されたフィールドでコード化されることはめったになく、下流のアプリケーションを制限する。
我々は,LLM,Human-in-the-loopアノテーション,自動プロンプト最適化(APO)を組み合わせたスケーラブルなパイプラインであるSynthEHR-Evictionを導入し,臨床ノートから退院状況の抽出を行う。
このパイプラインを使用して、14のきめ細かいカテゴリからなる、これまでで最大のパブリックエビクション関連SDoHデータセットを作成しました。
SynthEHR-Evictionでトレーニングされた微調整LDM (e , Qwen2.5, LLaMA3) は、GPT-4o-APO (87.8%, 87.3%)、GPT-4o-mini-APO (69.1%, 78.1%)、BioBERT (60.7%, 68.3%) を上回りながら、人間の検証データに対して88.8% (eviction) と90.3% (その他のSDoH) のスコアを得た。
このパイプラインはアノテーションの労力を80%以上削減し、データセット生成を加速し、スケーラブルな消去検出を可能にし、他の情報抽出タスクに一般化する。
関連論文リスト
- Scalable Medication Extraction and Discontinuation Identification from Electronic Health Records Using Large Language Models [4.179482990737624]
EHRノートから医薬品の抽出と医薬品の分類において,先進的なオープンソースおよびプロプライエタリな大規模言語モデル(LLMs)を評価した。
GPT-4oはゼロショット設定で全てのタスクの平均F1スコアを継続的に達成した。
オープンソースモデルに続いて、Llama-3.1-70B-Instructは医薬品のステータス分類において最高性能を達成した。
論文 参考訳(メタデータ) (2025-06-10T22:00:32Z) - Synth-SBDH: A Synthetic Dataset of Social and Behavioral Determinants of Health for Clinical Text [3.2962271410719426]
社会的および行動的健康決定因子(SBDH)は、健康結果において重要な役割を果たす。
既存のデータセットは、可用性とカバレッジにかなりの制限がある。
詳細なSBDHアノテーションを持つ新しい合成データセットであるSynth-SBDHを紹介する。
論文 参考訳(メタデータ) (2024-06-10T07:03:36Z) - Guided Discrete Diffusion for Electronic Health Record Generation [47.129056768385084]
EHRは、病気の進行予測、臨床試験設計、健康経済学と結果研究など、多くの計算医学の応用を可能にする中心的なデータソースである。
幅広いユーザビリティにもかかわらず、その繊細な性質はプライバシーと秘密の懸念を高め、潜在的なユースケースを制限する。
これらの課題に対処するために,人工的かつ現実的なEHRを合成するための生成モデルの利用について検討する。
論文 参考訳(メタデータ) (2024-04-18T16:50:46Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Automated Identification of Eviction Status from Electronic Health
Record Notes [5.637181708437528]
本研究では,電子カルテから退避状態を自動的に検出する自然言語処理システムを開発した。
我々は,他の最先端モデルよりも優れていることを示す新しいモデルKIRESHを開発した。
我々は、米国退役軍人の住宅安全対策を支援するため、防犯監視システムとしてKIRESH-PromptをVHAに配備する計画である。
論文 参考訳(メタデータ) (2022-12-06T05:25:32Z) - SOUL: An Energy-Efficient Unsupervised Online Learning Seizure Detection
Classifier [68.8204255655161]
神経活動を記録して発作を検出するインプラントデバイスは、発作を抑えるために警告を発したり神経刺激を誘発したりするために採用されている。
移植可能な発作検出システムでは、低出力で最先端のオンライン学習アルゴリズムを使用して、神経信号のドリフトに動的に適応することができる。
SOULはTSMCの28nmプロセスで0.1mm2を占め、1.5nJ/分級エネルギー効率を実現した。
論文 参考訳(メタデータ) (2021-10-01T23:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。