論文の概要: How Good Are Synthetic Medical Images? An Empirical Study with Lung
Ultrasound
- arxiv url: http://arxiv.org/abs/2310.03608v1
- Date: Thu, 5 Oct 2023 15:42:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 15:43:43.691854
- Title: How Good Are Synthetic Medical Images? An Empirical Study with Lung
Ultrasound
- Title(参考訳): 合成医療画像の良さは?
肺超音波による経験的研究
- Authors: Menghan Yu, Sourabh Kulhare, Courosh Mehanian, Charles B Delahunt,
Daniel E Shea, Zohreh Laverriere, Ishan Shah, Matthew P Horning
- Abstract要約: 生成モデルを使用して合成トレーニングデータを追加することで、データの不足に対処するための低コストな方法が提供される。
合成データと実データの両方によるトレーニングは、実データのみによるトレーニングよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.3312417881789094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acquiring large quantities of data and annotations is known to be effective
for developing high-performing deep learning models, but is difficult and
expensive to do in the healthcare context. Adding synthetic training data using
generative models offers a low-cost method to deal effectively with the data
scarcity challenge, and can also address data imbalance and patient privacy
issues. In this study, we propose a comprehensive framework that fits
seamlessly into model development workflows for medical image analysis. We
demonstrate, with datasets of varying size, (i) the benefits of generative
models as a data augmentation method; (ii) how adversarial methods can protect
patient privacy via data substitution; (iii) novel performance metrics for
these use cases by testing models on real holdout data. We show that training
with both synthetic and real data outperforms training with real data alone,
and that models trained solely with synthetic data approach their real-only
counterparts. Code is available at
https://github.com/Global-Health-Labs/US-DCGAN.
- Abstract(参考訳): 大量のデータやアノテーションを取得することは、ハイパフォーマンスなディープラーニングモデルの開発に有効であることは知られているが、医療現場で実施するのは困難で費用がかかる。
生成モデルを用いた合成トレーニングデータの追加は、データ不足の課題を効果的に扱うための低コストな方法であり、データの不均衡や患者のプライバシの問題にも対処できる。
本研究では,医療画像解析のためのモデル開発ワークフローにシームレスに適合する包括的フレームワークを提案する。
さまざまなサイズのデータセットで実証します。
(i)データ拡張法としての生成モデルの利点
(ii)データ置換による患者プライバシ保護の方法
(iii)実際のホールドアウトデータ上でモデルをテストすることにより、これらのユースケースでの新しいパフォーマンス指標を得る。
合成データと実データの両方によるトレーニングは、実際のデータだけでのトレーニングよりも優れており、合成データのみによるトレーニングは、実データにのみアプローチする。
コードはhttps://github.com/Global-Health-Labs/US-DCGANで入手できる。
関連論文リスト
- Zero-shot and Few-shot Generation Strategies for Artificial Clinical Records [1.338174941551702]
本研究は,Llama 2 LLMが患者情報を正確に反映した合成医療記録を作成する能力を評価するものである。
筆者らは,MIMIC-IVデータセットから得られたデータを用いて,現在史の物語を生成することに重点を置いている。
このチェーン・オブ・シークレットのアプローチにより、ゼロショットモデルが、ルージュのメトリクス評価に基づいて、微調整されたモデルと同等の結果が得られることが示唆された。
論文 参考訳(メタデータ) (2024-03-13T16:17:09Z) - Derm-T2IM: Harnessing Synthetic Skin Lesion Data via Stable Diffusion
Models for Enhanced Skin Disease Classification using ViT and CNN [1.0499611180329804]
我々は、最近の数発学習の成功を拡大して、拡張されたデータ変換技術を統合することを目指している。
最先端機械学習モデルのトレーニングパイプラインに新たに生成された合成データを組み込むことによる影響について検討する。
論文 参考訳(メタデータ) (2024-01-10T13:46:03Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - On the Stability of Iterative Retraining of Generative Models on their
own Data [56.153542044045224]
生成モデルの訓練がデータセット(実データと合成データの混合データ)の安定性に及ぼす影響について検討した。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は,CIFAR10およびFFHQ上の正規化フローと最先端拡散モデルの反復的訓練により,合成画像と自然画像の両方に関する理論を実証的に検証した。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Evaluation of the Synthetic Electronic Health Records [3.255030588361125]
本研究は、合成データセットのサンプルワイズ評価のための類似性と特異性という2つの指標を概説する。
本研究は,Cystic Fibrosis (CF) 患者の電子的健康記録を合成するために,いくつかの最先端の遺伝子モデルを用いて提案された概念を実証する。
論文 参考訳(メタデータ) (2022-10-16T22:46:08Z) - Can segmentation models be trained with fully synthetically generated
data? [0.39577682622066246]
BrainSPADEは、合成拡散ベースのラベルジェネレータとセマンティックイメージジェネレータを組み合わせたモデルである。
本モデルでは, 興味の病理の有無に関わらず, オンデマンドで完全合成脳ラベルを作成でき, 任意のガイド型MRI画像を生成することができる。
brainSPADE合成データは、実際のデータでトレーニングされたモデルに匹敵するパフォーマンスでセグメンテーションモデルをトレーニングするために使用できる。
論文 参考訳(メタデータ) (2022-09-17T05:24:04Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。