論文の概要: Unconditional Latent Diffusion Models Memorize Patient Imaging Data
- arxiv url: http://arxiv.org/abs/2402.01054v1
- Date: Thu, 1 Feb 2024 22:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 17:27:57.641967
- Title: Unconditional Latent Diffusion Models Memorize Patient Imaging Data
- Title(参考訳): 患者の画像データを記憶する非条件潜時拡散モデル
- Authors: Salman Ul Hassan Dar, Marvin Seyfarth, Jannik Kahmann, Isabelle Ayx,
Theano Papavassiliu, Stefan O. Schoenberg, Sandy Engelhardt
- Abstract要約: 我々は,合成データ生成のためのCT,MR,X線データセット上で2次元および3次元潜時拡散モデルを訓練する。
我々は、CT、MRI、X線データセットでそれぞれ記憶されたトレーニングデータの41.7%、19.6%、32.6%で、すべてのデータセット間で驚くほど大量のデータ記憶が観測されている。
- 参考スコア(独自算出の注目度): 1.7971209240645862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative latent diffusion models hold a wide range of applications in the
medical imaging domain. A noteworthy application is privacy-preserved open-data
sharing by proposing synthetic data as surrogates of real patient data. Despite
the promise, these models are susceptible to patient data memorization, where
models generate patient data copies instead of novel synthetic samples. This
undermines the whole purpose of preserving patient data and may even result in
patient re-identification. Considering the importance of the problem,
surprisingly it has received relatively little attention in the medical imaging
community. To this end, we assess memorization in latent diffusion models for
medical image synthesis. We train 2D and 3D latent diffusion models on CT, MR,
and X-ray datasets for synthetic data generation. Afterwards, we examine the
amount of training data memorized utilizing self-supervised models and further
investigate various factors that can possibly lead to memorization by training
models in different settings. We observe a surprisingly large amount of data
memorization among all datasets, with up to 41.7%, 19.6%, and 32.6% of the
training data memorized in CT, MRI, and X-ray datasets respectively. Further
analyses reveal that increasing training data size and using data augmentation
reduce memorization, while over-training enhances it. Overall, our results
suggest a call for memorization-informed evaluation of synthetic data prior to
open-data sharing.
- Abstract(参考訳): 生成的潜在拡散モデルは、医療画像領域において幅広い応用を保っている。
注目すべきアプリケーションは、実際の患者データの代理として合成データを提案することによって、プライバシーを保護したオープンデータ共有である。
約束にもかかわらず、これらのモデルは患者データ記憶の影響を受けやすく、モデルは新しい合成サンプルの代わりに患者データコピーを生成する。
これにより、患者のデータを保存するという目的が損なわれ、また、患者の再同定さえももたらされる。
この問題の重要性を考えると、医療画像のコミュニティでは驚くほど注目を集めていない。
そこで我々は,医用画像合成のための潜時拡散モデルの記憶度を評価する。
我々は合成データ生成のためのCT,MR,X線データセット上で2次元および3次元潜伏拡散モデルを訓練する。
その後,自己管理モデルを用いて記憶されたトレーニングデータの量を調べ,異なる設定のトレーニングモデルによる記憶につながる要因について検討する。
我々は、CT、MRI、X線データセットでそれぞれ記憶されたトレーニングデータの41.7%、19.6%、32.6%で、すべてのデータセット間で驚くほど大量のデータ記憶が観測されている。
さらに、トレーニングデータサイズの増加とデータ拡張の利用により記憶が減少し、過度なトレーニングによって記憶が強化されることが明らかになった。
総じて,オープンデータ共有に先立って,合成データの暗記による評価を求めることを提案する。
関連論文リスト
- Federated Data Model [16.62770246342126]
人工知能(AI)、特にディープラーニングでは、データ多様性とボリュームがモデル開発において重要な役割を果たす。
我々はFDM(Federated Data Model)と呼ばれる手法を開発し、様々な場所で堅牢なディープラーニングモデルを訓練した。
その結果,本手法でトレーニングしたモデルは,当初トレーニングしたデータと,他のサイトのデータの両方で良好に動作することがわかった。
論文 参考訳(メタデータ) (2024-03-13T18:16:54Z) - Synthetically Enhanced: Unveiling Synthetic Data's Potential in Medical
Imaging Research [4.609218256099332]
本研究では, 拡散モデルを用いた合成データ補完が, CXR解析のための深層学習(DL)分類器の性能に及ぼす影響について検討した。
私たちはCheXpert、MIMIC-CXR、Emory Chest X-rayの3つのデータセットを使用しました。
我々のアプローチは、合成画像が元のデータの人口統計学的特徴と病理学的特徴を反映することを確実にした。
論文 参考訳(メタデータ) (2023-11-15T21:58:01Z) - How Good Are Synthetic Medical Images? An Empirical Study with Lung
Ultrasound [0.3312417881789094]
生成モデルを使用して合成トレーニングデータを追加することで、データの不足に対処するための低コストな方法が提供される。
合成データと実データの両方によるトレーニングは、実データのみによるトレーニングよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-05T15:42:53Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Investigating Data Memorization in 3D Latent Diffusion Models for
Medical Image Synthesis [0.6382686594288781]
光子計数冠状動脈造影および膝磁気共鳴画像データセットを用いた3次元潜時拡散モデルの記憶能力の評価を行った。
以上の結果から,このような潜伏拡散モデルがトレーニングデータを記憶し,記憶化を緩和するための戦略を考案する必要があることが示唆された。
論文 参考訳(メタデータ) (2023-07-03T16:39:28Z) - Federated Learning Enables Big Data for Rare Cancer Boundary Detection [98.5549882883963]
6大陸にわたる71の医療機関のデータを含む,これまでで最大のフェデレーテッドML研究の結果を報告する。
グリオ芽腫の稀な疾患に対する腫瘍境界自動検出装置を作製した。
当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。
論文 参考訳(メタデータ) (2022-04-22T17:27:00Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - Deep learning-based COVID-19 pneumonia classification using chest CT
images: model generalizability [54.86482395312936]
深層学習(DL)分類モデルは、異なる国の3DCTデータセット上で、COVID-19陽性患者を特定するために訓練された。
我々は、データセットと72%の列車、8%の検証、20%のテストデータを組み合わせたDLベースの9つの同一分類モデルを訓練した。
複数のデータセットでトレーニングされ、トレーニングに使用されるデータセットの1つからテストセットで評価されたモデルは、よりよいパフォーマンスを示した。
論文 参考訳(メタデータ) (2021-02-18T21:14:52Z) - Overcoming Barriers to Data Sharing with Medical Image Generation: A
Comprehensive Evaluation [17.983449515155414]
我々は、GAN(Generative Adversarial Networks)を用いて、合成患者データからなる医用画像データセットを作成する。
合成画像は、理想的には、ソースデータセットと類似した統計特性を持つが、機密性の高い個人情報は含まない。
合成画像の品質は、合成データセットと実データセットの両方で訓練された予測モデルの性能差によって測定する。
論文 参考訳(メタデータ) (2020-11-29T15:41:46Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。