論文の概要: DualAlign: Generating Clinically Grounded Synthetic Data
- arxiv url: http://arxiv.org/abs/2509.10538v1
- Date: Fri, 05 Sep 2025 18:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-21 06:05:45.798443
- Title: DualAlign: Generating Clinically Grounded Synthetic Data
- Title(参考訳): DualAlign: 臨床現場の合成データを生成する
- Authors: Rumeng Li, Xun Wang, Hong Yu,
- Abstract要約: 両アライメントによる統計的忠実度と臨床的妥当性を高めるフレームワークであるDualAlignを紹介する。
アルツハイマー病(AD)をケーススタディとして、DualAlignは文脈的症状レベルの文章を生成する。
LLaMA 3.1-8BモデルとDualAlign生成データと人間アノテーションデータの組み合わせを微調整すると、大幅な性能向上が得られる。
- 参考スコア(独自算出の注目度): 9.87164447021602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic clinical data are increasingly important for advancing AI in healthcare, given strict privacy constraints on real-world EHRs, limited availability of annotated rare-condition data, and systemic biases in observational datasets. While large language models (LLMs) can generate fluent clinical text, producing synthetic data that is both realistic and clinically meaningful remains challenging. We introduce DualAlign, a framework that enhances statistical fidelity and clinical plausibility through dual alignment: (1) statistical alignment, which conditions generation on patient demographics and risk factors; and (2) semantic alignment, which incorporates real-world symptom trajectories to guide content generation. Using Alzheimer's disease (AD) as a case study, DualAlign produces context-grounded symptom-level sentences that better reflect real-world clinical documentation. Fine-tuning an LLaMA 3.1-8B model with a combination of DualAlign-generated and human-annotated data yields substantial performance gains over models trained on gold data alone or unguided synthetic baselines. While DualAlign does not fully capture longitudinal complexity, it offers a practical approach for generating clinically grounded, privacy-preserving synthetic data to support low-resource clinical text analysis.
- Abstract(参考訳): 現実のEHRに対する厳格なプライバシー制限、注釈付きレアコンディションデータの可用性の制限、観察データセットにおけるシステムバイアスなど、医療におけるAIの進歩には、合成臨床データがますます重要になっている。
大規模言語モデル(LLMs)は、流動的な臨床テキストを生成することができるが、現実的かつ臨床的に有意義な合成データを生成することは困難である。
両アライメントによる統計的忠実度と臨床的妥当性を高めるフレームワークであるDualAlignを紹介した。(1) 患者人口統計およびリスク要因に基づいて生成する統計的アライメント,(2) 実世界の症状軌跡を組み込んだセマンティックアライメントによりコンテンツ生成を誘導する。
アルツハイマー病(AD)をケーススタディとして、DualAlignは実際の臨床文書を反映した文脈的症状レベルの文章を生成する。
LLaMA 3.1-8BモデルとDualAlign生成データと人間アノテーションデータの組み合わせを微調整すると、金のデータだけで訓練されたモデルや、誘導されていない合成ベースラインよりも大幅にパフォーマンスが向上する。
DualAlignは、長さの複雑さを完全に捉えていないが、低リソースの臨床テキスト分析をサポートするために、臨床に基盤を置き、プライバシを保存する合成データを生成するための実践的なアプローチを提供する。
関連論文リスト
- SynLLM: A Comparative Analysis of Large Language Models for Medical Tabular Synthetic Data Generation via Prompt Engineering [1.5020330976600738]
オープンソースのLarge Language Modelsを用いて高品質な合成医療データを生成するためのモジュラーフレームワークであるSynLLMを提案する。
SynLLMは糖尿病, 硬変, ストロークを含む3つの公的医療データセットで評価した。
以上の結果から,プロンプトエンジニアリングがデータ品質とプライバシリスクに大きく影響し,ルールベースのプロンプトが最高のプライバシ品質バランスを達成することが示唆された。
論文 参考訳(メタデータ) (2025-08-11T23:56:42Z) - Adaptable Cardiovascular Disease Risk Prediction from Heterogeneous Data using Large Language Models [70.64969663547703]
AdaCVDは、英国バイオバンクから50万人以上の参加者を対象に、大規模な言語モデルに基づいて構築された適応可能なCVDリスク予測フレームワークである。
包括的かつ可変的な患者情報を柔軟に取り込み、構造化データと非構造化テキストの両方をシームレスに統合し、最小限の追加データを使用して新規患者の集団に迅速に適応する。
論文 参考訳(メタデータ) (2025-05-30T14:42:02Z) - Generating Clinically Realistic EHR Data via a Hierarchy- and Semantics-Guided Transformer [0.0]
生成過程の新たなフレームワークとして階層型・意味型変換器(HiSGT)を提案する。
HiSGTは、親子関係と臨床コード間の兄弟関係をエンコードする階層グラフを構築し、階層認識の埋め込みを導出するためにグラフニューラルネットワークを使用する。
MIMIC-IIIおよびMIMIC-IVデータセットの実験により、HiSGTは実際の患者記録と合成データの統計的アライメントを大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-02-28T05:06:04Z) - Masked Clinical Modelling: A Framework for Synthetic and Augmented Survival Data Generation [1.7769033811751995]
本稿では,マスク付き言語モデリングに触発されたMCM(Masked Clinical Modelling)について紹介する。
MCMはデータ合成と条件付きデータ拡張の両方のために設計されている。
我々は,このプロトタイプをCox Proportional Hazardsモデルを用いてWHAS500データセット上で評価する。
論文 参考訳(メタデータ) (2024-10-22T08:38:46Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthesize High-dimensional Longitudinal Electronic Health Records via
Hierarchical Autoregressive Language Model [40.473866438962034]
合成電子健康記録は、機械学習(ML)モデリングと統計解析のための実際のEHRの代替として機能することができる。
階層型自己回帰言語mOdel(HALO)を提案する。
論文 参考訳(メタデータ) (2023-04-04T23:53:34Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。