論文の概要: Unconditional Latent Diffusion Models Memorize Patient Imaging Data: Implications for Openly Sharing Synthetic Data
- arxiv url: http://arxiv.org/abs/2402.01054v3
- Date: Tue, 07 Jan 2025 21:53:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:53:50.263252
- Title: Unconditional Latent Diffusion Models Memorize Patient Imaging Data: Implications for Openly Sharing Synthetic Data
- Title(参考訳): 患者の画像データを記憶する非条件潜時拡散モデル:オープン共有合成データへの意味
- Authors: Salman Ul Hassan Dar, Marvin Seyfarth, Isabelle Ayx, Theano Papavassiliu, Stefan O. Schoenberg, Robert Malte Siepmann, Fabian Christopher Laqua, Jannik Kahmann, Norbert Frey, Bettina Baeßler, Sebastian Foersch, Daniel Truhn, Jakob Nikolas Kather, Sandy Engelhardt,
- Abstract要約: 我々は、合成データ生成のためのCT、MR、X線データセット上で潜時拡散モデルを訓練する。
そして,新たな自己教師型コピー検出手法を用いて,記憶したトレーニングデータの量を検出する。
以上の結果から,全データセットにまたがる驚くほど高い患者のデータ記憶が得られた。
- 参考スコア(独自算出の注目度): 2.04850174048739
- License:
- Abstract: AI models present a wide range of applications in the field of medicine. However, achieving optimal performance requires access to extensive healthcare data, which is often not readily available. Furthermore, the imperative to preserve patient privacy restricts patient data sharing with third parties and even within institutes. Recently, generative AI models have been gaining traction for facilitating open-data sharing by proposing synthetic data as surrogates of real patient data. Despite the promise, some of these models are susceptible to patient data memorization, where models generate patient data copies instead of novel synthetic samples. Considering the importance of the problem, surprisingly it has received relatively little attention in the medical imaging community. To this end, we assess memorization in unconditional latent diffusion models. We train latent diffusion models on CT, MR, and X-ray datasets for synthetic data generation. We then detect the amount of training data memorized utilizing our novel self-supervised copy detection approach and further investigate various factors that can influence memorization. Our findings show a surprisingly high degree of patient data memorization across all datasets. Comparison with non-diffusion generative models, such as autoencoders and generative adversarial networks, indicates that while latent diffusion models are more susceptible to memorization, overall they outperform non-diffusion models in synthesis quality. Further analyses reveal that using augmentation strategies, small architecture, and increasing dataset can reduce memorization while over-training the models can enhance it. Collectively, our results emphasize the importance of carefully training generative models on private medical imaging datasets, and examining the synthetic data to ensure patient privacy before sharing it for medical research and applications.
- Abstract(参考訳): AIモデルは医学の分野で幅広い応用を提示する。
しかし、最適なパフォーマンスを達成するには広範な医療データへのアクセスが必要である。
さらに、患者のプライバシを維持する義務は、サードパーティや機関内でも、患者のデータ共有を制限する。
近年、生成AIモデルは、実際の患者データのサロゲートとして合成データを提案することで、オープンデータ共有を促進するために牽引されている。
約束にもかかわらず、これらのモデルの中には、患者データ記憶の影響を受けるものもあり、そこでは、新しい合成サンプルではなく、患者データコピーを生成する。
この問題の重要性を考えると、医療画像のコミュニティでは驚くほど注目を集めていない。
この目的のために、無条件潜在拡散モデルにおける記憶の評価を行う。
我々は、合成データ生成のためのCT、MR、X線データセット上で潜時拡散モデルを訓練する。
次に,新たな自己教師型コピー検出手法を用いて記憶されたトレーニングデータの量を検出し,記憶に影響を及ぼす様々な要因について検討する。
以上の結果から,全データセットにまたがる驚くほど高い患者のデータ記憶が得られた。
自己エンコーダや生成逆数ネットワークのような非拡散生成モデルと比較すると、潜伏拡散モデルは暗記の影響を受けやすいが、全体としては非拡散モデルよりも合成品質が優れている。
さらに分析したところ、拡張戦略、小さなアーキテクチャ、データセットの増加により、モデルを過度にトレーニングしながら記憶を減らせることが判明した。
本研究は, 医用医用画像データセットにおける生成モデルを慎重に訓練することの重要性を強調し, 患者プライバシを確保するため, 医療研究や応用のために共有する前に, 合成データを調べることの重要性を強調した。
関連論文リスト
- Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
大規模なデータセットのトレーニングによるスケーリングは、画像生成の品質と忠実度を高め、拡散モデルによる操作を可能にすることが示されている。
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
本研究は,異なる微調整方式と組み合わせた場合,様々なシナリオにおいて顕著な性能向上を示すものである。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - Improving Deep Learning-based Automatic Cranial Defect Reconstruction by Heavy Data Augmentation: From Image Registration to Latent Diffusion Models [0.2911706166691895]
この研究は、パーソナライズされた頭蓋インプラントの自動モデリングにおける人工知能の分野に多大な貢献をしている。
重データの増大が定量的および定性的な結果の両方を著しく増加させることを示す。
また, 人工的に拡張したネットワークは, 実際の臨床的欠陥を再構築することに成功した。
論文 参考訳(メタデータ) (2024-06-10T15:34:23Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Zero-shot and Few-shot Generation Strategies for Artificial Clinical Records [1.338174941551702]
本研究は,Llama 2 LLMが患者情報を正確に反映した合成医療記録を作成する能力を評価するものである。
筆者らは,MIMIC-IVデータセットから得られたデータを用いて,現在史の物語を生成することに重点を置いている。
このチェーン・オブ・シークレットのアプローチにより、ゼロショットモデルが、ルージュのメトリクス評価に基づいて、微調整されたモデルと同等の結果が得られることが示唆された。
論文 参考訳(メタデータ) (2024-03-13T16:17:09Z) - How Good Are Synthetic Medical Images? An Empirical Study with Lung
Ultrasound [0.3312417881789094]
生成モデルを使用して合成トレーニングデータを追加することで、データの不足に対処するための低コストな方法が提供される。
合成データと実データの両方によるトレーニングは、実データのみによるトレーニングよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-05T15:42:53Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Investigating Data Memorization in 3D Latent Diffusion Models for
Medical Image Synthesis [0.6382686594288781]
光子計数冠状動脈造影および膝磁気共鳴画像データセットを用いた3次元潜時拡散モデルの記憶能力の評価を行った。
以上の結果から,このような潜伏拡散モデルがトレーニングデータを記憶し,記憶化を緩和するための戦略を考案する必要があることが示唆された。
論文 参考訳(メタデータ) (2023-07-03T16:39:28Z) - Can segmentation models be trained with fully synthetically generated
data? [0.39577682622066246]
BrainSPADEは、合成拡散ベースのラベルジェネレータとセマンティックイメージジェネレータを組み合わせたモデルである。
本モデルでは, 興味の病理の有無に関わらず, オンデマンドで完全合成脳ラベルを作成でき, 任意のガイド型MRI画像を生成することができる。
brainSPADE合成データは、実際のデータでトレーニングされたモデルに匹敵するパフォーマンスでセグメンテーションモデルをトレーニングするために使用できる。
論文 参考訳(メタデータ) (2022-09-17T05:24:04Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。