Fugu-MT 論文翻訳(概要): A text-to-tabular approach to generate synthetic patient data using LLMs

論文の概要: A text-to-tabular approach to generate synthetic patient data using LLMs

arxiv url: http://arxiv.org/abs/2412.05153v1
Date: Fri, 06 Dec 2024 16:10:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-09 22:41:41.185878
Title: A text-to-tabular approach to generate synthetic patient data using LLMs
Title（参考訳）: LLMを用いた合成患者データ生成のためのテキスト・タブラルアプローチ
Authors: Margaux Tornqvist, Jean-Daniel Zucker, Tristan Fauvel, Nicolas Lambert, Mathilde Berthelot, Antoine Movschin,
Abstract要約: そこで本研究では,患者データへのアクセスを必要としない人工的な患者データを生成する手法を提案する。我々は,大言語モデルの先行医療知識とコンテキスト内学習能力を活用して,現実的な患者データを生成する。
参考スコア（独自算出の注目度）: 0.3628457733531155
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Access to large-scale high-quality healthcare databases is key to accelerate medical research and make insightful discoveries about diseases. However, access to such data is often limited by patient privacy concerns, data sharing restrictions and high costs. To overcome these limitations, synthetic patient data has emerged as an alternative. However, synthetic data generation (SDG) methods typically rely on machine learning (ML) models trained on original data, leading back to the data scarcity problem. We propose an approach to generate synthetic tabular patient data that does not require access to the original data, but only a description of the desired database. We leverage prior medical knowledge and in-context learning capabilities of large language models (LLMs) to generate realistic patient data, even in a low-resource setting. We quantitatively evaluate our approach against state-of-the-art SDG models, using fidelity, privacy, and utility metrics. Our results show that while LLMs may not match the performance of state-of-the-art models trained on the original data, they effectively generate realistic patient data with well-preserved clinical correlations. An ablation study highlights key elements of our prompt contributing to high-quality synthetic patient data generation. This approach, which is easy to use and does not require original data or advanced ML skills, is particularly valuable for quickly generating custom-designed patient data, supporting project implementation and providing educational resources.
Abstract（参考訳）: 大規模で高品質な医療データベースへのアクセスは、医学研究を加速し、病気に関する洞察に富んだ発見を行う鍵となる。しかし、そのようなデータへのアクセスは、患者のプライバシー上の懸念、データ共有の制限、高コストによって制限されることが多い。これらの制限を克服するため、人工的な患者データが代替手段として登場した。しかしながら、合成データ生成(SDG)メソッドは通常、オリジナルのデータに基づいてトレーニングされた機械学習(ML)モデルに依存しており、データ不足の問題が引き起こされる。そこで,本論文では,対象のデータベースにのみアクセスする必要のない合成表型患者データを生成するアプローチを提案する。我々は,低リソース環境においても,大規模言語モデル(LLM)の事前の医療知識とコンテキスト学習能力を活用して,現実的な患者データを生成する。我々は,最新のSDGモデルに対する我々のアプローチを,忠実度,プライバシ,ユーティリティメトリクスを用いて定量的に評価する。以上の結果から, LLMは, 元のデータに基づいてトレーニングした最先端モデルと一致しないかもしれないが, 保存状態の良好な臨床相関で, 現実的な患者データを効果的に生成できることが示唆された。アブレーション研究は、高品質な合成患者データ生成に寄与する重要な要素を浮き彫りにしている。このアプローチは使いやすく、元のデータや高度なMLスキルを必要としないが、特に、カスタム設計の患者データを迅速に生成し、プロジェクト実装をサポートし、教育リソースを提供するのに有用である。

関連論文リスト

Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference [89.5628648718851]
因果推論は医療介入の開発と評価に不可欠である。現実の医療データセットは、規制障壁のためアクセスが難しいことが多い。本稿では,医学における治療効果分析のための新しい合成データ生成法STEAMを提案する。
論文参考訳（メタデータ） (2025-10-21T16:16:00Z)
Forecasting-Based Biomedical Time-series Data Synthesis for Open Data and Robust AI [0.841508985473488]
本稿では,先進的な予測モデルに基づく生医学的時系列データ生成のためのフレームワークを提案する。これらの合成データセットは、実データの本質的時間的およびスペクトル的特性を保存している。
論文参考訳（メタデータ） (2025-10-06T09:32:10Z)
Large Language Models for Market Research: A Data-augmentation Approach [3.3199591445531453]
大規模言語モデル(LLM)は、複雑な自然言語処理タスクに優れ、人工知能を変革した。近年の研究では、LLMが生成するデータと人間のデータの間に大きなギャップが見られ、両者を置換する際にバイアスが発生している。コンジョイント解析において,LLM生成データと実データとを効率的に統合する新しい統計データ拡張手法を提案する。
論文参考訳（メタデータ） (2024-12-26T22:06:29Z)
Controllable Synthetic Clinical Note Generation with Privacy Guarantees [7.1366477372157995]
本稿では、PHI(Personal Health Information)を含む「クローン」データセットに対する新しい手法を提案する。我々のアプローチは、クローン化されたデータセットが患者のプライバシを損なうことなく、元のデータの本質的な特性と有用性を保っていることを保証します。クローン化されたデータセットでトレーニングされた機械学習モデルの性能を評価するために,ユーティリティテストを実施している。
論文参考訳（メタデータ） (2024-09-12T07:38:34Z)
Zero-shot and Few-shot Generation Strategies for Artificial Clinical Records [1.338174941551702]
本研究は,Llama 2 LLMが患者情報を正確に反映した合成医療記録を作成する能力を評価するものである。筆者らは,MIMIC-IVデータセットから得られたデータを用いて,現在史の物語を生成することに重点を置いている。このチェーン・オブ・シークレットのアプローチにより、ゼロショットモデルが、ルージュのメトリクス評価に基づいて、微調整されたモデルと同等の結果が得られることが示唆された。
論文参考訳（メタデータ） (2024-03-13T16:17:09Z)
Unconditional Latent Diffusion Models Memorize Patient Imaging Data: Implications for Openly Sharing Synthetic Data [2.1375651880073834]
生成型AIモデルは、オープンデータの共有を容易にするために注目を集めている。これらのモデルは、新規な合成サンプルの代わりに患者データコピーを生成する。我々は,合成データ生成のためのCT,MR,X線データセット上で2次元および3次元潜時拡散モデルを訓練する。
論文参考訳（メタデータ） (2024-02-01T22:58:21Z)
How Good Are Synthetic Medical Images? An Empirical Study with Lung Ultrasound [0.3312417881789094]
生成モデルを使用して合成トレーニングデータを追加することで、データの不足に対処するための低コストな方法が提供される。合成データと実データの両方によるトレーニングは、実データのみによるトレーニングよりも優れていることを示す。
論文参考訳（メタデータ） (2023-10-05T15:42:53Z)
MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文参考訳（メタデータ） (2023-10-04T01:36:30Z)
STAR: Boosting Low-Resource Information Extraction by Structure-to-Text Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-05-24T12:15:19Z)
Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文参考訳（メタデータ） (2023-04-07T16:38:40Z)
Large Language Models for Healthcare Data Augmentation: An Example on Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文参考訳（メタデータ） (2023-03-24T03:14:00Z)
FLOP: Federated Learning on Medical Datasets using Partial Networks [84.54663831520853]
新型コロナウイルスの感染拡大で医療資源が不足している。新型コロナウイルスの診断を緩和するために、さまざまなデータ駆動型ディープラーニングモデルが開発されている。患者のプライバシー上の懸念から、データそのものはまだ乏しい。我々は、textbfPartial Networks (FLOP) を用いた、シンプルで効果的な textbfFederated textbfL textbfon Medical データセットを提案する。
論文参考訳（メタデータ） (2021-02-10T01:56:58Z)
Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文参考訳（メタデータ） (2020-07-23T15:50:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。