論文の概要: Addressing Small and Imbalanced Medical Image Datasets Using Generative Models: A Comparative Study of DDPM and PGGANs with Random and Greedy K Sampling
- arxiv url: http://arxiv.org/abs/2412.12532v1
- Date: Tue, 17 Dec 2024 04:42:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:01:26.203061
- Title: Addressing Small and Imbalanced Medical Image Datasets Using Generative Models: A Comparative Study of DDPM and PGGANs with Random and Greedy K Sampling
- Title(参考訳): 生成モデルを用いた小・不均衡医療画像データセットの対応:DDPMとPGGANとランダムKサンプリングの比較検討
- Authors: Iman Khazrak, Shakhnoza Takhirova, Mostafa M. Rezaee, Mehrdad Yadollahi, Robert C. Green II, Shuteng Niu,
- Abstract要約: 本研究では, 拡散確率モデル (DDPM) や PGGAN (Progressive Growing Generative Adversarial Networks) などの生成モデルを用いたデータセットの増大について検討する。
本研究は,DDPMとPGGANが生成する合成画像が4つのモデルの性能に与える影響を評価する枠組みを提案する。
- 参考スコア(独自算出の注目度): 1.0423569489053142
- License:
- Abstract: The development of accurate medical image classification models is often constrained by privacy concerns and data scarcity for certain conditions, leading to small and imbalanced datasets. To address these limitations, this study explores the use of generative models, such as Denoising Diffusion Probabilistic Models (DDPM) and Progressive Growing Generative Adversarial Networks (PGGANs), for dataset augmentation. The research introduces a framework to assess the impact of synthetic images generated by DDPM and PGGANs on the performance of four models: a custom CNN, Untrained VGG16, Pretrained VGG16, and Pretrained ResNet50. Experiments were conducted using Random Sampling and Greedy K Sampling to create small, imbalanced datasets. The synthetic images were evaluated using Frechet Inception Distance (FID) and compared to original datasets through classification metrics. The results show that DDPM consistently generated more realistic images with lower FID scores and significantly outperformed PGGANs in improving classification metrics across all models and datasets. Incorporating DDPM-generated images into the original datasets increased accuracy by up to 6%, enhancing model robustness and stability, particularly in imbalanced scenarios. Random Sampling demonstrated superior stability, while Greedy K Sampling offered diversity at the cost of higher FID scores. This study highlights the efficacy of DDPM in augmenting small, imbalanced medical image datasets, improving model performance by balancing the dataset and expanding its size.
- Abstract(参考訳): 正確な医用画像分類モデルの開発は、特定の条件に対するプライバシー上の懸念とデータの不足によってしばしば制約され、小さく不均衡なデータセットにつながる。
これらの制約に対処するために、データセットの増大にDenoising Diffusion Probabilistic Models (DDPM) やProgressive Growing Generative Adversarial Networks (PGGANs) などの生成モデルを使用することを検討する。
本研究は,DDPMとPGGANが生成する合成画像が,カスタムCNN,未学習VGG16,事前学習VGG16,事前学習ResNet50の4つのモデルの性能に与える影響を評価する枠組みを提案する。
Random SmplingとGreedy K Smplingを使って、小さな不均衡なデータセットを作成する実験が行われた。
合成画像はFrechet Inception Distance (FID) を用いて評価し, 分類指標によるデータセットと比較した。
その結果、DDPMはFIDスコアが低く、PGGANよりもずっとリアルな画像を生成し、すべてのモデルやデータセットの分類基準を改善した。
DDPM生成した画像を元のデータセットに組み込むことで精度が最大6%向上し、特に不均衡なシナリオにおいてモデルの堅牢性と安定性が向上した。
ランダムサンプリングは優れた安定性を示し、Greedy K Smplingはより高いFIDスコアのコストで多様性を提供した。
本研究は、小さな不均衡な医用画像データセットを増大させ、データセットのバランスを保ち、サイズを拡大することでモデル性能を向上させるDDPMの有効性を強調した。
関連論文リスト
- DataDream: Few-shot Guided Dataset Generation [90.09164461462365]
実データ分布をより忠実に表現する分類データセットを合成するためのフレームワークを提案する。
DataDream fine-tunes LoRA weights for the image generation model on the few real image before generated the training data using the adapt model。
次に、合成データを用いてCLIPのLoRA重みを微調整し、様々なデータセットに対する以前のアプローチよりも下流画像の分類を改善する。
論文 参考訳(メタデータ) (2024-07-15T17:10:31Z) - SAR Image Synthesis with Diffusion Models [0.0]
拡散モデル(DM)は、合成データを生成する一般的な方法となっている。
本研究では,拡散確率モデル (DDPM) をSAR領域に適応させる特定の種類のDMについて述べる。
DDPMは,SAR画像生成のための最先端のGAN法よりも質的に,定量的に優れていることを示す。
論文 参考訳(メタデータ) (2024-05-13T14:21:18Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - MCRAGE: Synthetic Healthcare Data for Fairness [3.0089659534785853]
そこで本稿では,MCRAGE (Generative Modeling) の強化による不均衡データセットの増大によるマイノリティクラス再バランスを提案する。
MCRAGEは、デノイング拡散確率モデル (Denoising Diffusion Probabilistic Model, CDDPM) を訓練し、未表現のクラスから高品質な合成EHRサンプルを生成する。
この合成データを使用して、既存の不均衡なデータセットを増大させ、その結果、すべてのクラスにまたがるよりバランスの取れた分散を実現します。
論文 参考訳(メタデータ) (2023-10-27T19:02:22Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Data-iterative Optimization Score Model for Stable Ultra-Sparse-View CT
Reconstruction [2.2336243882030025]
スパースビューCT再構成のための反復最適化データスコアリングモデル(DOSM)を提案する。
DOSMはデータの一貫性をデータ一貫性要素に統合し、測定データと生成モデルの制約を効果的にバランスさせる。
我々はDOSM更新の最適化に従来の手法を活用している。
論文 参考訳(メタデータ) (2023-08-28T09:23:18Z) - Synthesizing Mixed-type Electronic Health Records using Diffusion Models [10.973115905786129]
合成データ生成は、機密性の高い患者情報を共有する際のプライバシー上の懸念を軽減するための有望なソリューションである。
近年の研究では、拡散モデルは、より現実的な合成データの生成や、画像、テキスト、音声などのデータモダリティの生成における安定したトレーニングなど、GANに対していくつかの利点があることが示された。
実験の結果,TabDDPMは,プライバシーとユーティリティのトレードオフを確認するプライバシー以外のすべての評価指標において,最先端モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-28T15:42:30Z) - Robustness Analysis of Deep Learning Models for Population Synthesis [5.9106199000537645]
複数のデータセットに対するロバスト性を評価するため, 深部生成モデルのブートストラップ信頼区間を示す。
これらのモデルは、2008年、2013年、2018年のモントリオール・オリジン・デスチネーション・サーベイの複数の旅行日記に実装されている。
その結果,CTGANの予測誤差は,複数のデータセットに対する堅牢性を示す信頼区間が狭かった。
論文 参考訳(メタデータ) (2022-11-23T22:55:55Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。