論文の概要: SynLLM: A Comparative Analysis of Large Language Models for Medical Tabular Synthetic Data Generation via Prompt Engineering
- arxiv url: http://arxiv.org/abs/2508.08529v1
- Date: Mon, 11 Aug 2025 23:56:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.257162
- Title: SynLLM: A Comparative Analysis of Large Language Models for Medical Tabular Synthetic Data Generation via Prompt Engineering
- Title(参考訳): SynLLM: プロンプト工学による医療用語彙合成データ生成のための大規模言語モデルの比較分析
- Authors: Arshia Ilaty, Hossein Shirazi, Hajar Homayouni,
- Abstract要約: オープンソースのLarge Language Modelsを用いて高品質な合成医療データを生成するためのモジュラーフレームワークであるSynLLMを提案する。
SynLLMは糖尿病, 硬変, ストロークを含む3つの公的医療データセットで評価した。
以上の結果から,プロンプトエンジニアリングがデータ品質とプライバシリスクに大きく影響し,ルールベースのプロンプトが最高のプライバシ品質バランスを達成することが示唆された。
- 参考スコア(独自算出の注目度): 1.5020330976600738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Access to real-world medical data is often restricted due to privacy regulations, posing a significant barrier to the advancement of healthcare research. Synthetic data offers a promising alternative; however, generating realistic, clinically valid, and privacy-conscious records remains a major challenge. Recent advancements in Large Language Models (LLMs) offer new opportunities for structured data generation; however, existing approaches frequently lack systematic prompting strategies and comprehensive, multi-dimensional evaluation frameworks. In this paper, we present SynLLM, a modular framework for generating high-quality synthetic medical tabular data using 20 state-of-the-art open-source LLMs, including LLaMA, Mistral, and GPT variants, guided by structured prompts. We propose four distinct prompt types, ranging from example-driven to rule-based constraints, that encode schema, metadata, and domain knowledge to control generation without model fine-tuning. Our framework features a comprehensive evaluation pipeline that rigorously assesses generated data across statistical fidelity, clinical consistency, and privacy preservation. We evaluate SynLLM across three public medical datasets, including Diabetes, Cirrhosis, and Stroke, using 20 open-source LLMs. Our results show that prompt engineering significantly impacts data quality and privacy risk, with rule-based prompts achieving the best privacy-quality balance. SynLLM establishes that, when guided by well-designed prompts and evaluated with robust, multi-metric criteria, LLMs can generate synthetic medical data that is both clinically plausible and privacy-aware, paving the way for safer and more effective data sharing in healthcare research.
- Abstract(参考訳): 現実の医療データへのアクセスは、しばしばプライバシー規制のために制限され、医療研究の進歩に重大な障壁をもたらす。
合成データは有望な代替手段を提供するが、現実的で、臨床的に有効であり、プライバシーに配慮した記録を生成することは大きな課題である。
大規模言語モデル(LLM)の最近の進歩は、構造化データ生成の新しい機会を提供するが、既存のアプローチでは、体系的なプロンプト戦略や包括的な多次元評価フレームワークが欠如していることが多い。
本稿では,LLaMA,Mistral,GPTなど20種類のオープンソースLCMを用いて,構造化プロンプトでガイドされる高品質な合成医用表データを生成するためのモジュールフレームワークであるSynLLMを提案する。
本稿では,スキーマ,メタデータ,ドメイン知識を符号化し,モデル微調整なしで生成を制御する,例駆動の制約からルールベースの制約まで,4つの異なるプロンプト型を提案する。
本フレームワークは, 統計的忠実度, 臨床整合性, プライバシ保護の両面から生成したデータを厳密に評価する包括的評価パイプラインを特徴とする。
我々は、20個のオープンソースLCMを用いて、糖尿病、硬変、ストロークを含む3つの公開医療データセット間でSynLLMを評価した。
以上の結果から,プロンプトエンジニアリングがデータ品質とプライバシリスクに大きく影響し,ルールベースのプロンプトが最高のプライバシ品質バランスを達成することが示唆された。
SynLLMは、適切に設計されたプロンプトによってガイドされ、堅牢でマルチメトリックな基準で評価されると、LSMは臨床上妥当でプライバシに配慮した合成医療データを生成し、医療研究においてより安全で効果的なデータ共有の道を開くことを確立している。
関連論文リスト
- A Case Study Exploring the Current Landscape of Synthetic Medical Record Generation with Commercial LLMs [1.1645633237702129]
合成データを生成する商用大規模言語モデルの現状を評価する。
我々の主な発見は、LLMが小さな特徴のサブセットに対して確実に合成された健康記録を生成できる一方で、データの次元が増加するにつれて、現実的な分布と相関を維持するのに苦労していることである。
論文 参考訳(メタデータ) (2025-04-20T15:37:05Z) - Masked Clinical Modelling: A Framework for Synthetic and Augmented Survival Data Generation [1.7769033811751995]
本稿では,マスク付き言語モデリングに触発されたMCM(Masked Clinical Modelling)について紹介する。
MCMはデータ合成と条件付きデータ拡張の両方のために設計されている。
我々は,このプロトタイプをCox Proportional Hazardsモデルを用いてWHAS500データセット上で評価する。
論文 参考訳(メタデータ) (2024-10-22T08:38:46Z) - Collaborative Synthesis of Patient Records through Multi-Visit Health
State Inference [25.121296198656758]
協調EHR合成のための多視点健康状態推定モデルMSICを提案する。
確率的グラフィカルモデルとして合成EHR生成過程を定式化する。
我々は、過去の記録を効果的に活用し、現在および将来の記録を合成するために、マルチビジットシナリオに適した健康状態推定法を導出する。
論文 参考訳(メタデータ) (2023-12-22T12:28:29Z) - Knowledge-Infused Prompting: Assessing and Advancing Clinical Text Data Generation with Large Language Models [46.32860360019374]
大規模言語モデル(LLM)はこの領域で有望だが、それらの直接的なデプロイはプライバシーの問題につながる可能性がある。
我々は,そのプロセスに知識を注入する,革新的で資源効率のよいアプローチであるClinGenを提案する。
7つのNLPタスクと16のデータセットを比較検討した結果,ClinGenはさまざまなタスクのパフォーマンスを継続的に向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-01T04:37:28Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。