論文の概要: Zero-shot generation of synthetic neurosurgical data with large language models
- arxiv url: http://arxiv.org/abs/2502.09566v2
- Date: Mon, 17 Feb 2025 08:04:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:28.051474
- Title: Zero-shot generation of synthetic neurosurgical data with large language models
- Title(参考訳): 大規模言語モデルを用いた人工神経外科データのゼロショット生成
- Authors: Austin A. Barr, Eddie Guo, Emre Sezgin,
- Abstract要約: 本研究の目的は,大言語モデル(LLM, GPT-4o)を用いた人工神経外科データのゼロショット生成能力を評価することである。
GPT-4oで合成されたデータは、小さなサンプルサイズで臨床データを効果的に増強し、神経外科的結果を予測するためのMLモデルを訓練することができる。
- 参考スコア(独自算出の注目度): 0.7373617024876725
- License:
- Abstract: Clinical data is fundamental to advance neurosurgical research, but access is often constrained by data availability, small sample sizes, privacy regulations, and resource-intensive preprocessing and de-identification procedures. Synthetic data offers a potential solution to challenges associated with accessing and using real-world data (RWD). This study aims to evaluate the capability of zero-shot generation of synthetic neurosurgical data with a large language model (LLM), GPT-4o, by benchmarking with the conditional tabular generative adversarial network (CTGAN). Synthetic datasets were compared to real-world neurosurgical data to assess fidelity (means, proportions, distributions, and bivariate correlations), utility (ML classifier performance on RWD), and privacy (duplication of records from RWD). The GPT-4o-generated datasets matched or exceeded CTGAN performance, despite no fine-tuning or access to RWD for pre-training. Datasets demonstrated high univariate and bivariate fidelity to RWD without directly exposing any real patient records, even at amplified sample size. Training an ML classifier on GPT-4o-generated data and testing on RWD for a binary prediction task showed an F1 score (0.706) with comparable performance to training on the CTGAN data (0.705) for predicting postoperative functional status deterioration. GPT-4o demonstrated a promising ability to generate high-fidelity synthetic neurosurgical data. These findings also indicate that data synthesized with GPT-4o can effectively augment clinical data with small sample sizes, and train ML models for prediction of neurosurgical outcomes. Further investigation is necessary to improve the preservation of distributional characteristics and boost classifier performance.
- Abstract(参考訳): 臨床データは神経外科研究を進めるのに不可欠であるが、アクセスはデータ可用性、小さなサンプルサイズ、プライバシー規制、リソース集約的な前処理と非識別の手順によって制限されることが多い。
合成データは、現実世界のデータ(RWD)へのアクセスと利用に関連する課題に対する潜在的な解決策を提供する。
本研究では,大言語モデル (LLM, GPT-4o) を用いた合成神経外科データのゼロショット生成能力について,条件付き表層生成対向ネットワーク (CTGAN) を用いたベンチマークにより評価することを目的とした。
合成データセットを実世界の神経外科データと比較し,忠実度(平均,比例,分布,二変量相関),実用性(RWDにおけるML分類器の性能),プライバシー(RWDからのレコードの重複)を評価した。
GPT-4o生成データセットは、微調整や事前トレーニングのためのRWDへのアクセスは行わず、CTGANのパフォーマンスと一致または超過した。
サンプルサイズが増幅されても、実際の患者記録を直接露出することなく、RWDに対して高い単変量および二変量忠実度を示した。
ML分類器をGPT-4o生成データで訓練し、2進予測タスクでRWDでテストすると、F1スコア(0.706)がCTGANデータ(0.705)と同等の性能を示し、術後機能低下を予測する。
GPT-4oは高忠実性合成神経外科データを生成できる有望な能力を示した。
また, GPT-4oで合成したデータは, 臨床データを小さなサンプルサイズで効果的に増強し, 神経外科的結果を予測するためのMLモデルを訓練できることが示唆された。
さらに, 分布特性の保存性の向上と分類器の性能向上を図る必要がある。
関連論文リスト
- Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - Unconditional Latent Diffusion Models Memorize Patient Imaging Data: Implications for Openly Sharing Synthetic Data [2.04850174048739]
我々は、合成データ生成のためのCT、MR、X線データセット上で潜時拡散モデルを訓練する。
そして,新たな自己教師型コピー検出手法を用いて,記憶したトレーニングデータの量を検出する。
以上の結果から,全データセットにまたがる驚くほど高い患者のデータ記憶が得られた。
論文 参考訳(メタデータ) (2024-02-01T22:58:21Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - Synthetically Enhanced: Unveiling Synthetic Data's Potential in Medical Imaging Research [4.475998415951477]
Generative AIは、合成画像を生成するための有望なアプローチを提供し、データセットの多様性を向上する。
本研究では, 医用画像研究の性能と一般化性に及ぼす合成データ補充の影響について検討した。
論文 参考訳(メタデータ) (2023-11-15T21:58:01Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - A Generative Model to Synthesize EEG Data for Epileptic Seizure
Prediction [3.8271082752302137]
本稿では, 合成脳波サンプルを生成するための深層畳み込み生成対向ネットワークを提案する。
我々は合成データ、すなわち1クラスSVMと、畳み込みてんかん発作予測器(CESP)と呼ばれる新しい提案を2つの手法で検証する。
以上の結果から,CESPモデルでは78.11%,88.21%,FPR0.27/h,0.14/hの感度が得られた。
論文 参考訳(メタデータ) (2020-12-01T12:00:36Z) - Longitudinal modeling of MS patient trajectories improves predictions of
disability progression [2.117653457384462]
本研究は, 実世界の患者データから情報を最適に抽出する作業に対処する。
本研究では,患者軌跡モデリングに適した機械学習手法を用いることで,患者の障害進行を2年間の地平線で予測できることを示す。
文献で利用可能なモデルと比較して、この研究はMS病の進行予測に最も完全な患者履歴を使用する。
論文 参考訳(メタデータ) (2020-11-09T20:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。