Fugu-MT 論文翻訳(概要): Unconditional Latent Diffusion Models Memorize Patient Imaging Data

論文の概要: Unconditional Latent Diffusion Models Memorize Patient Imaging Data

arxiv url: http://arxiv.org/abs/2402.01054v1
Date: Thu, 1 Feb 2024 22:58:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 17:27:57.641967
Title: Unconditional Latent Diffusion Models Memorize Patient Imaging Data
Title（参考訳）: 患者の画像データを記憶する非条件潜時拡散モデル
Authors: Salman Ul Hassan Dar, Marvin Seyfarth, Jannik Kahmann, Isabelle Ayx, Theano Papavassiliu, Stefan O. Schoenberg, Sandy Engelhardt
Abstract要約: 我々は,合成データ生成のためのCT,MR,X線データセット上で2次元および3次元潜時拡散モデルを訓練する。我々は、CT、MRI、X線データセットでそれぞれ記憶されたトレーニングデータの41.7%、19.6%、32.6%で、すべてのデータセット間で驚くほど大量のデータ記憶が観測されている。
参考スコア（独自算出の注目度）: 1.7971209240645862
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative latent diffusion models hold a wide range of applications in the medical imaging domain. A noteworthy application is privacy-preserved open-data sharing by proposing synthetic data as surrogates of real patient data. Despite the promise, these models are susceptible to patient data memorization, where models generate patient data copies instead of novel synthetic samples. This undermines the whole purpose of preserving patient data and may even result in patient re-identification. Considering the importance of the problem, surprisingly it has received relatively little attention in the medical imaging community. To this end, we assess memorization in latent diffusion models for medical image synthesis. We train 2D and 3D latent diffusion models on CT, MR, and X-ray datasets for synthetic data generation. Afterwards, we examine the amount of training data memorized utilizing self-supervised models and further investigate various factors that can possibly lead to memorization by training models in different settings. We observe a surprisingly large amount of data memorization among all datasets, with up to 41.7%, 19.6%, and 32.6% of the training data memorized in CT, MRI, and X-ray datasets respectively. Further analyses reveal that increasing training data size and using data augmentation reduce memorization, while over-training enhances it. Overall, our results suggest a call for memorization-informed evaluation of synthetic data prior to open-data sharing.
Abstract（参考訳）: 生成的潜在拡散モデルは、医療画像領域において幅広い応用を保っている。注目すべきアプリケーションは、実際の患者データの代理として合成データを提案することによって、プライバシーを保護したオープンデータ共有である。約束にもかかわらず、これらのモデルは患者データ記憶の影響を受けやすく、モデルは新しい合成サンプルの代わりに患者データコピーを生成する。これにより、患者のデータを保存するという目的が損なわれ、また、患者の再同定さえももたらされる。この問題の重要性を考えると、医療画像のコミュニティでは驚くほど注目を集めていない。そこで我々は,医用画像合成のための潜時拡散モデルの記憶度を評価する。我々は合成データ生成のためのCT,MR,X線データセット上で2次元および3次元潜伏拡散モデルを訓練する。その後,自己管理モデルを用いて記憶されたトレーニングデータの量を調べ,異なる設定のトレーニングモデルによる記憶につながる要因について検討する。我々は、CT、MRI、X線データセットでそれぞれ記憶されたトレーニングデータの41.7%、19.6%、32.6%で、すべてのデータセット間で驚くほど大量のデータ記憶が観測されている。さらに、トレーニングデータサイズの増加とデータ拡張の利用により記憶が減少し、過度なトレーニングによって記憶が強化されることが明らかになった。総じて,オープンデータ共有に先立って,合成データの暗記による評価を求めることを提案する。

関連論文リスト

Prototype-Guided Diffusion for Digital Pathology: Achieving Foundation Model Performance with Minimal Clinical Data [6.318463500874778]
本研究では,高忠実度合成病理データを大規模に生成するプロトタイプ誘導拡散モデルを提案する。我々のアプローチは、生成したデータの生物学的、診断学的に有意義な変動を保証します。我々は、大規模な実世界のデータセットでトレーニングされたモデルよりも60倍-760倍少ないデータを使用しても、我々の合成データセットでトレーニングされた自己教師機能によって競争性能が向上することを示した。
論文参考訳（メタデータ） (2025-04-15T21:17:39Z)
Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文参考訳（メタデータ） (2024-12-30T01:59:34Z)
Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文参考訳（メタデータ） (2024-06-18T16:20:12Z)
Improving Deep Learning-based Automatic Cranial Defect Reconstruction by Heavy Data Augmentation: From Image Registration to Latent Diffusion Models [0.2911706166691895]
この研究は、パーソナライズされた頭蓋インプラントの自動モデリングにおける人工知能の分野に多大な貢献をしている。重データの増大が定量的および定性的な結果の両方を著しく増加させることを示す。また, 人工的に拡張したネットワークは, 実際の臨床的欠陥を再構築することに成功した。
論文参考訳（メタデータ） (2024-06-10T15:34:23Z)
DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文参考訳（メタデータ） (2024-03-20T04:58:03Z)
Zero-shot and Few-shot Generation Strategies for Artificial Clinical Records [1.338174941551702]
本研究は,Llama 2 LLMが患者情報を正確に反映した合成医療記録を作成する能力を評価するものである。筆者らは,MIMIC-IVデータセットから得られたデータを用いて,現在史の物語を生成することに重点を置いている。このチェーン・オブ・シークレットのアプローチにより、ゼロショットモデルが、ルージュのメトリクス評価に基づいて、微調整されたモデルと同等の結果が得られることが示唆された。
論文参考訳（メタデータ） (2024-03-13T16:17:09Z)
How Good Are Synthetic Medical Images? An Empirical Study with Lung Ultrasound [0.3312417881789094]
生成モデルを使用して合成トレーニングデータを追加することで、データの不足に対処するための低コストな方法が提供される。合成データと実データの両方によるトレーニングは、実データのみによるトレーニングよりも優れていることを示す。
論文参考訳（メタデータ） (2023-10-05T15:42:53Z)
MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文参考訳（メタデータ） (2023-10-04T01:36:30Z)
Investigating Data Memorization in 3D Latent Diffusion Models for Medical Image Synthesis [0.6382686594288781]
光子計数冠状動脈造影および膝磁気共鳴画像データセットを用いた3次元潜時拡散モデルの記憶能力の評価を行った。以上の結果から,このような潜伏拡散モデルがトレーニングデータを記憶し,記憶化を緩和するための戦略を考案する必要があることが示唆された。
論文参考訳（メタデータ） (2023-07-03T16:39:28Z)
Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文参考訳（メタデータ） (2022-11-13T01:07:23Z)
Can segmentation models be trained with fully synthetically generated data? [0.39577682622066246]
BrainSPADEは、合成拡散ベースのラベルジェネレータとセマンティックイメージジェネレータを組み合わせたモデルである。本モデルでは, 興味の病理の有無に関わらず, オンデマンドで完全合成脳ラベルを作成でき, 任意のガイド型MRI画像を生成することができる。 brainSPADE合成データは、実際のデータでトレーニングされたモデルに匹敵するパフォーマンスでセグメンテーションモデルをトレーニングするために使用できる。
論文参考訳（メタデータ） (2022-09-17T05:24:04Z)
Bootstrapping Your Own Positive Sample: Contrastive Learning With Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。 EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文参考訳（メタデータ） (2021-04-07T06:02:04Z)
FLOP: Federated Learning on Medical Datasets using Partial Networks [84.54663831520853]
新型コロナウイルスの感染拡大で医療資源が不足している。新型コロナウイルスの診断を緩和するために、さまざまなデータ駆動型ディープラーニングモデルが開発されている。患者のプライバシー上の懸念から、データそのものはまだ乏しい。我々は、textbfPartial Networks (FLOP) を用いた、シンプルで効果的な textbfFederated textbfL textbfon Medical データセットを提案する。
論文参考訳（メタデータ） (2021-02-10T01:56:58Z)
Overcoming Barriers to Data Sharing with Medical Image Generation: A Comprehensive Evaluation [17.983449515155414]
我々は、GAN(Generative Adversarial Networks)を用いて、合成患者データからなる医用画像データセットを作成する。合成画像は、理想的には、ソースデータセットと類似した統計特性を持つが、機密性の高い個人情報は含まない。合成画像の品質は、合成データセットと実データセットの両方で訓練された予測モデルの性能差によって測定する。
論文参考訳（メタデータ） (2020-11-29T15:41:46Z)
Longitudinal modeling of MS patient trajectories improves predictions of disability progression [2.117653457384462]
本研究は, 実世界の患者データから情報を最適に抽出する作業に対処する。本研究では,患者軌跡モデリングに適した機械学習手法を用いることで,患者の障害進行を2年間の地平線で予測できることを示す。文献で利用可能なモデルと比較して、この研究はMS病の進行予測に最も完全な患者履歴を使用する。
論文参考訳（メタデータ） (2020-11-09T20:48:00Z)
Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文参考訳（メタデータ） (2020-09-02T02:50:30Z)
Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文参考訳（メタデータ） (2020-06-11T17:29:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。