論文の概要: A Case Study Exploring the Current Landscape of Synthetic Medical Record Generation with Commercial LLMs
- arxiv url: http://arxiv.org/abs/2504.14657v2
- Date: Fri, 25 Apr 2025 06:34:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.713557
- Title: A Case Study Exploring the Current Landscape of Synthetic Medical Record Generation with Commercial LLMs
- Title(参考訳): 商業用LLMを用いた合成医療記録の現況を探る事例研究
- Authors: Yihan Lin, Zhirong Bella Yu, Simon Lee,
- Abstract要約: 合成データを生成する商用大規模言語モデルの現状を評価する。
我々の主な発見は、LLMが小さな特徴のサブセットに対して確実に合成された健康記録を生成できる一方で、データの次元が増加するにつれて、現実的な分布と相関を維持するのに苦労していることである。
- 参考スコア(独自算出の注目度): 1.1645633237702129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic Electronic Health Records (EHRs) offer a valuable opportunity to create privacy preserving and harmonized structured data, supporting numerous applications in healthcare. Key benefits of synthetic data include precise control over the data schema, improved fairness and representation of patient populations, and the ability to share datasets without concerns about compromising real individuals privacy. Consequently, the AI community has increasingly turned to Large Language Models (LLMs) to generate synthetic data across various domains. However, a significant challenge in healthcare is ensuring that synthetic health records reliably generalize across different hospitals, a long standing issue in the field. In this work, we evaluate the current state of commercial LLMs for generating synthetic data and investigate multiple aspects of the generation process to identify areas where these models excel and where they fall short. Our main finding from this work is that while LLMs can reliably generate synthetic health records for smaller subsets of features, they struggle to preserve realistic distributions and correlations as the dimensionality of the data increases, ultimately limiting their ability to generalize across diverse hospital settings.
- Abstract(参考訳): シンセティック・エレクトロニック・ヘルス・レコード(EHR)は、プライバシー保護と調和された構造化データを作成する貴重な機会を提供する。
合成データの主な利点は、データスキーマの正確な制御、患者集団の公平性と表現の改善、実際の個人のプライバシーを損なうことなくデータセットを共有する能力である。
その結果、AIコミュニティは、さまざまなドメインにまたがる合成データを生成するために、Large Language Models(LLMs)に目を向けるようになった。
しかし、医療における重要な課題は、人工的な健康記録が様々な病院で確実に一般化することを確実にすることである。
本研究では, 合成データを生成する商用LCMの現状を評価し, 生成プロセスの複数の側面について検討し, これらのモデルが優れている領域と不足箇所を同定する。
この研究から得られた主な発見は、LSMは少数の機能の合成健康記録を確実に生成できる一方で、データの次元が増大するにつれて、現実的な分布と相関を維持するのに苦労し、最終的には様々な病院設定にまたがって一般化する能力を制限できるということです。
関連論文リスト
- A text-to-tabular approach to generate synthetic patient data using LLMs [0.3628457733531155]
そこで本研究では,患者データへのアクセスを必要としない人工的な患者データを生成する手法を提案する。
我々は,大言語モデルの先行医療知識とコンテキスト内学習能力を活用して,現実的な患者データを生成する。
論文 参考訳(メタデータ) (2024-12-06T16:10:40Z) - In-Context Learning for Preserving Patient Privacy: A Framework for Synthesizing Realistic Patient Portal Messages [0.9112162560071937]
新型コロナウイルス(COVID-19)のパンデミック以降、臨床医は患者のポータルメッセージに大きくて持続的な流入を見てきた。
本研究では,現実的な患者ポータルメッセージ生成のための LLM を利用したフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-10T18:06:55Z) - FedCVD: The First Real-World Federated Learning Benchmark on Cardiovascular Disease Data [52.55123685248105]
心臓血管疾患(CVD)は、現在世界でも主要な死因であり、早期診断と治療の要点を浮き彫りにしている。
機械学習(ML)手法はCVDの早期診断に役立つが、その性能は高品質なデータへのアクセスに依存している。
本稿では、FedCVDという心臓血管疾患検出のための、世界初の実世界のFLベンチマークを示す。
論文 参考訳(メタデータ) (2024-10-28T02:24:01Z) - Redefining Digital Health Interfaces with Large Language Models [69.02059202720073]
大規模言語モデル(LLM)は、複雑な情報を処理できる汎用モデルとして登場した。
LLMが臨床医とデジタル技術との新たなインターフェースを提供する方法を示す。
自動機械学習を用いた新しい予後ツールを開発した。
論文 参考訳(メタデータ) (2023-10-05T14:18:40Z) - Patchwork Learning: A Paradigm Towards Integrative Analysis across
Diverse Biomedical Data Sources [40.32772510980854]
パッチワーク学習(PL)とは、異なるデータモダリティからなる異なるデータセットからの情報を統合するパラダイムである。
PLはデータのプライバシを保持しながら、補完的なデータソースの同時利用を可能にする。
本稿では、パッチワーク学習の概念とその医療における実装について紹介し、潜在的な機会と適用可能なデータソースを探求する。
論文 参考訳(メタデータ) (2023-05-10T14:50:33Z) - Leveraging Generative AI Models for Synthetic Data Generation in
Healthcare: Balancing Research and Privacy [0.0]
GANやVAEといった生成AIモデルは、貴重なデータアクセスと患者のプライバシ保護のバランスをとるための、有望なソリューションを提供する。
本稿では,現実的な匿名化された患者データを作成するための生成AIモデルについて検討する。
論文 参考訳(メタデータ) (2023-05-09T08:12:44Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Federated Learning Enables Big Data for Rare Cancer Boundary Detection [98.5549882883963]
6大陸にわたる71の医療機関のデータを含む,これまでで最大のフェデレーテッドML研究の結果を報告する。
グリオ芽腫の稀な疾患に対する腫瘍境界自動検出装置を作製した。
当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。
論文 参考訳(メタデータ) (2022-04-22T17:27:00Z) - The Health Gym: Synthetic Health-Related Datasets for the Development of
Reinforcement Learning Algorithms [2.032684842401705]
Health Gymは、機械学習アルゴリズムのプロトタイプ、評価、比較に自由にアクセス可能な、合成医療データセットのコレクションである。
このデータセットはGAN(Generative Adversarial Network)を用いて作成された。
合成データセットの公開分布に関連する機密情報開示のリスクは非常に低いと推定される。
論文 参考訳(メタデータ) (2022-03-12T07:28:02Z) - Health Status Prediction with Local-Global Heterogeneous Behavior Graph [69.99431339130105]
ウェアラブルセンサから継続的に収集される各種データストリームにより、健康状態の推定が可能です。
行動関連マルチソースデータストリームをローカル・グローバル・グラフでモデル化することを提案する。
学生生活データセットを用いて実験を行い,提案モデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-03-23T11:10:04Z) - FLOP: Federated Learning on Medical Datasets using Partial Networks [84.54663831520853]
新型コロナウイルスの感染拡大で医療資源が不足している。
新型コロナウイルスの診断を緩和するために、さまざまなデータ駆動型ディープラーニングモデルが開発されている。
患者のプライバシー上の懸念から、データそのものはまだ乏しい。
我々は、textbfPartial Networks (FLOP) を用いた、シンプルで効果的な textbfFederated textbfL textbfon Medical データセットを提案する。
論文 参考訳(メタデータ) (2021-02-10T01:56:58Z) - GS-WGAN: A Gradient-Sanitized Approach for Learning Differentially
Private Generators [74.16405337436213]
我々は、GS-WGAN(Gradient-sanitized Wasserstein Generative Adrial Networks)を提案する。
GS-WGANは、厳格なプライバシー保証を備えた機密データの衛生的な形式での公開を可能にする。
このアプローチは、複数のメトリクスにわたる最先端のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2020-06-15T10:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。