論文の概要: Synth-SBDH: A Synthetic Dataset of Social and Behavioral Determinants of Health for Clinical Text
- arxiv url: http://arxiv.org/abs/2406.06056v2
- Date: Wed, 30 Oct 2024 04:15:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:23:23.306273
- Title: Synth-SBDH: A Synthetic Dataset of Social and Behavioral Determinants of Health for Clinical Text
- Title(参考訳): Synth-SBDH: 臨床テキストのための社会的および行動決定因子の合成データセット
- Authors: Avijit Mitra, Emily Druhl, Raelene Goodwin, Hong Yu,
- Abstract要約: 社会的および行動的健康決定因子(SBDH)は、健康結果において重要な役割を果たす。
既存のデータセットは、可用性とカバレッジにかなりの制限がある。
詳細なSBDHアノテーションを持つ新しい合成データセットであるSynth-SBDHを紹介する。
- 参考スコア(独自算出の注目度): 3.2962271410719426
- License:
- Abstract: Social and behavioral determinants of health (SBDH) play a crucial role in health outcomes and are frequently documented in clinical text. Automatically extracting SBDH information from clinical text relies on publicly available good-quality datasets. However, existing SBDH datasets exhibit substantial limitations in their availability and coverage. In this study, we introduce Synth-SBDH, a novel synthetic dataset with detailed SBDH annotations, encompassing status, temporal information, and rationale across 15 SBDH categories. We showcase the utility of Synth-SBDH on three tasks using real-world clinical datasets from two distinct hospital settings, highlighting its versatility, generalizability, and distillation capabilities. Models trained on Synth-SBDH consistently outperform counterparts with no Synth-SBDH training, achieving up to 63.75% macro-F improvements. Additionally, Synth-SBDH proves effective for rare SBDH categories and under-resource constraints while being substantially cheaper than expert-annotated real-world data. Human evaluation reveals a 71.06% Human-LLM alignment and uncovers areas for future refinements.
- Abstract(参考訳): 社会的および行動的健康決定因子(SBDH)は、健康結果において重要な役割を担い、臨床文献に頻繁に記録されている。
臨床テキストから自動的にSBDH情報を抽出することは、公開されている高品質なデータセットに依存している。
しかし、既存のSBDHデータセットは、可用性とカバレッジにかなりの制限がある。
本研究では,Synth-SBDHについて述べる。Synth-SBDHはSBDHアノテーションを詳細に記述した新しい合成データセットである。
そこで我々は,Synth-SBDHの2つの異なる病院環境から得られた実世界の臨床データセットを用いて,その汎用性,一般化性,蒸留能力の3つのタスクにおける有用性を示す。
Synth-SBDHで訓練されたモデルは、Synth-SBDHトレーニングなしで一貫して性能を上回り、最大63.75%のマクロF改善を実現した。
さらに、Synth-SBDHは希少なSBDHカテゴリやアンダーリソース制約に対して有効であり、専門家による実世界のデータよりもかなり安価である。
人間の評価は71.06%のHuman-LLMアライメントを示し、将来の改良のための領域を明らかにする。
関連論文リスト
- Guided Discrete Diffusion for Electronic Health Record Generation [47.129056768385084]
EHRは、病気の進行予測、臨床試験設計、健康経済学と結果研究など、多くの計算医学の応用を可能にする中心的なデータソースである。
幅広いユーザビリティにもかかわらず、その繊細な性質はプライバシーと秘密の懸念を高め、潜在的なユースケースを制限する。
これらの課題に対処するために,人工的かつ現実的なEHRを合成するための生成モデルの利用について検討する。
論文 参考訳(メタデータ) (2024-04-18T16:50:46Z) - Detecting the Clinical Features of Difficult-to-Treat Depression using
Synthetic Data from Large Language Models [0.20971479389679337]
我々は,日常的に収集された物語(自由テキスト)電子健康記録データを問うことができるLarge Language Model(LLM)ベースのツールの開発を目指している。
LLM生成合成データ(GPT3.5)と非最大抑圧(NMS)アルゴリズムを用いてBERTに基づくスパン抽出モデルを訓練する。
以上の結果から,20因子のセットによる臨床データによる総合成績 (0.70 F1) と重要なDTDのサブセットにおける高いパフォーマンス (0.85 F1 と 0.95 の精度) が得られた。
論文 参考訳(メタデータ) (2024-02-12T13:34:33Z) - Synthetically Enhanced: Unveiling Synthetic Data's Potential in Medical Imaging Research [4.475998415951477]
Generative AIは、合成画像を生成するための有望なアプローチを提供し、データセットの多様性を向上する。
本研究では, 医用画像研究の性能と一般化性に及ぼす合成データ補充の影響について検討した。
論文 参考訳(メタデータ) (2023-11-15T21:58:01Z) - On Synthetic Data for Back Translation [66.6342561585953]
逆翻訳(BT)はNTT研究分野において最も重要な技術の一つである。
バックトランスレーションNMTの性能を制御する合成データには,品質と重要性の2つの重要な要素を同定する。
そこで本研究では,BTの性能向上のために,両因子のトレードオフを改善するため,合成データを生成するための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-10-20T17:24:12Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - Conditional Generation of Medical Time Series for Extrapolation to
Underrepresented Populations [27.49371449726921]
HealthGenは、現在の最先端技術よりも実際の患者EHRに忠実な合成コホートを生成する。
実際のデータセットを条件付きで生成したコホートで拡張することで、患者の人口不足がモデルの一般性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-01-20T14:04:21Z) - Generating Synthetic Mixed-type Longitudinal Electronic Health Records
for Artificial Intelligent Applications [9.374416143268892]
EHR-M-GAN (Generative Adversarial Network, GAN) は、EHRデータを合成する。
EHR-M-GANは,141,488名の患者を対象とし,3つの公用集中治療単位データベース上で検証した。
論文 参考訳(メタデータ) (2021-12-22T17:17:34Z) - A Study of Social and Behavioral Determinants of Health in Lung Cancer
Patients Using Transformers-based Natural Language Processing Models [23.68697811086486]
社会的および行動的健康決定因子(SBDoH)は、人々の健康を形作る上で重要な役割を担っている。
現在の電子カルテシステムにおける構造化SBDoH情報の欠如による臨床成績におけるSBDoH因子の検討は限られている。
したがって、自然言語処理(NLP)は、構造化されていない臨床テキストからそのような情報を抽出する鍵となる技術である。
論文 参考訳(メタデータ) (2021-08-10T22:11:31Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。