論文の概要: Synthetically Enhanced: Unveiling Synthetic Data's Potential in Medical
Imaging Research
- arxiv url: http://arxiv.org/abs/2311.09402v1
- Date: Wed, 15 Nov 2023 21:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 17:29:12.328050
- Title: Synthetically Enhanced: Unveiling Synthetic Data's Potential in Medical
Imaging Research
- Title(参考訳): シンセティック・エンハンスメント : 医用画像研究における合成データの可能性
- Authors: Bardia Khosravi, Frank Li, Theo Dapamede, Pouria Rouzrokh, Cooper U.
Gamble, Hari M. Trivedi, Cody C. Wyles, Andrew B. Sellergren, Saptarshi
Purkayastha, Bradley J. Erickson, Judy W. Gichoya
- Abstract要約: 本研究では, 拡散モデルを用いた合成データ補完が, CXR解析のための深層学習(DL)分類器の性能に及ぼす影響について検討した。
私たちはCheXpert、MIMIC-CXR、Emory Chest X-rayの3つのデータセットを使用しました。
我々のアプローチは、合成画像が元のデータの人口統計学的特徴と病理学的特徴を反映することを確実にした。
- 参考スコア(独自算出の注目度): 4.609218256099332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chest X-rays (CXR) are the most common medical imaging study and are used to
diagnose multiple medical conditions. This study examines the impact of
synthetic data supplementation, using diffusion models, on the performance of
deep learning (DL) classifiers for CXR analysis. We employed three datasets:
CheXpert, MIMIC-CXR, and Emory Chest X-ray, training conditional denoising
diffusion probabilistic models (DDPMs) to generate synthetic frontal
radiographs. Our approach ensured that synthetic images mirrored the
demographic and pathological traits of the original data. Evaluating the
classifiers' performance on internal and external datasets revealed that
synthetic data supplementation enhances model accuracy, particularly in
detecting less prevalent pathologies. Furthermore, models trained on synthetic
data alone approached the performance of those trained on real data. This
suggests that synthetic data can potentially compensate for real data shortages
in training robust DL models. However, despite promising outcomes, the
superiority of real data persists.
- Abstract(参考訳): 胸部X線(CXR)は最も一般的な医用画像研究であり、複数の疾患の診断に用いられる。
本研究では, 拡散モデルを用いた合成データ補完が, CXR解析のための深層学習(DL)分類器の性能に及ぼす影響について検討した。
3つのデータセット(chexpert, mimic-cxr, emory chest x-ray, training conditional denoising diffusion probabilistic models (ddpms))を用いて合成前頭葉x線写真を作成した。
我々のアプローチは、合成画像が元のデータの人口統計学的特徴と病理学的特徴を反映していることを保証する。
内部および外部のデータセットにおける分類器の性能評価により、合成データ補完はモデルの精度を高めることが判明した。
さらに、合成データだけで訓練されたモデルは、実データで訓練されたモデルの性能に近づいた。
これは、合成データが堅牢なdlモデルのトレーニングにおいて実際のデータ不足を補う可能性があることを示唆している。
しかし、有望な結果にもかかわらず、実際のデータの優位性は持続する。
関連論文リスト
- Can Medical Vision-Language Pre-training Succeed with Purely Synthetic Data? [8.775988650381397]
医療ビジョン言語による事前トレーニングモデルのトレーニングには、ペアで高品質な画像テキストデータを備えたデータセットが必要である。
近年の大規模言語モデルの進歩により,大規模合成画像テキストペアの生成が可能になった。
多様な高品質な合成データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-17T13:11:07Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic Data as Validation [9.506660694536649]
CT(Computed tomography)ボリュームにおける早期癌検出のための合成データの有用性について述べる。
我々は,人工腫瘍を用いた外部データのストリーム上で,AIモデルを継続的にトレーニングする,新たな連続学習フレームワークを構築した。
動的に拡張された合成データをトレーニングし、検証するAIモデルは、実世界のデータにのみトレーニングされ、検証されるモデルより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-24T17:59:55Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文 参考訳(メタデータ) (2023-05-17T10:50:38Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Differentially Private Diffusion Models Generate Useful Synthetic Images [53.94025967603649]
近年の研究では、いくつかの拡散モデルの出力がトレーニングデータのプライバシを保持していないことが報告されている。
CIFAR-10 と Camelyon17 のSOTA 結果を得た。
以上の結果から,差分プライバシーで微調整された拡散モデルが有用かつ実証可能なプライベートな合成データを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-02-27T15:02:04Z) - Evaluation of the Synthetic Electronic Health Records [3.255030588361125]
本研究は、合成データセットのサンプルワイズ評価のための類似性と特異性という2つの指標を概説する。
本研究は,Cystic Fibrosis (CF) 患者の電子的健康記録を合成するために,いくつかの最先端の遺伝子モデルを用いて提案された概念を実証する。
論文 参考訳(メタデータ) (2022-10-16T22:46:08Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Deep learning-based COVID-19 pneumonia classification using chest CT
images: model generalizability [54.86482395312936]
深層学習(DL)分類モデルは、異なる国の3DCTデータセット上で、COVID-19陽性患者を特定するために訓練された。
我々は、データセットと72%の列車、8%の検証、20%のテストデータを組み合わせたDLベースの9つの同一分類モデルを訓練した。
複数のデータセットでトレーニングされ、トレーニングに使用されるデータセットの1つからテストセットで評価されたモデルは、よりよいパフォーマンスを示した。
論文 参考訳(メタデータ) (2021-02-18T21:14:52Z) - Overcoming Barriers to Data Sharing with Medical Image Generation: A
Comprehensive Evaluation [17.983449515155414]
我々は、GAN(Generative Adversarial Networks)を用いて、合成患者データからなる医用画像データセットを作成する。
合成画像は、理想的には、ソースデータセットと類似した統計特性を持つが、機密性の高い個人情報は含まない。
合成画像の品質は、合成データセットと実データセットの両方で訓練された予測モデルの性能差によって測定する。
論文 参考訳(メタデータ) (2020-11-29T15:41:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。