論文の概要: The Devil is in the Prompts: De-Identification Traces Enhance Memorization Risks in Synthetic Chest X-Ray Generation
- arxiv url: http://arxiv.org/abs/2502.07516v1
- Date: Tue, 11 Feb 2025 12:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:31.176006
- Title: The Devil is in the Prompts: De-Identification Traces Enhance Memorization Risks in Synthetic Chest X-Ray Generation
- Title(参考訳): Devil is in the Prompts: De-Identification Traces Enhance Memorization Risks in Synthetic Chest X-ray Generation
- Authors: Raman Dutt,
- Abstract要約: 生成モデル、特にテキスト画像拡散モデル(T2I)は、医療画像解析において重要な役割を果たす。
これらのモデルは、データの記憶をトレーニングする傾向があり、患者のプライバシに重大なリスクをもたらす。
本研究では、データ駆動型アプローチを採用し、データ記憶のトレーニングに最も寄与するプロンプトを特定するための最初の体系的な試みを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Generative models, particularly text-to-image (T2I) diffusion models, play a crucial role in medical image analysis. However, these models are prone to training data memorization, posing significant risks to patient privacy. Synthetic chest X-ray generation is one of the most common applications in medical image analysis with the MIMIC-CXR dataset serving as the primary data repository for this task. This study adopts a data-driven approach and presents the first systematic attempt to identify prompts and text tokens in MIMIC-CXR that contribute the most to training data memorization. Our analysis reveals an unexpected finding: prompts containing traces of de-identification procedures are among the most memorized, with de-identification markers contributing the most. Furthermore, we also find existing inference-time memorization mitigation strategies are ineffective and fail to sufficiently reduce the model's reliance on memorized text tokens highlighting a broader issue in T2I synthesis with MIMIC-CXR. On this front, we propose actionable strategies to enhance privacy and improve the reliability of generative models in medical imaging. Finally, our results provide a foundation for future work on developing and benchmarking memorization mitigation techniques for synthetic chest X-ray generation using the MIMIC-CXR dataset.
- Abstract(参考訳): 生成モデル、特にテキスト画像拡散モデル(T2I)は、医療画像解析において重要な役割を果たす。
しかし、これらのモデルはデータの記憶をトレーニングする傾向があり、患者のプライバシーに重大なリスクをもたらす。
合成胸部X線生成はMIMIC-CXRデータセットを用いた医用画像解析における最も一般的な応用の1つである。
本研究はデータ駆動型アプローチを採用し,MIMIC-CXRにおけるデータ記憶のトレーニングに最も貢献するプロンプトとテキストトークンを識別するための最初の体系的試みを示す。
我々の分析は予期せぬ発見を明らかにした: 脱識別手順の痕跡を含むプロンプトは、最も記憶に残るものの一つであり、脱識別マーカーが最も寄与している。
さらに,MIMIC-CXRを用いたT2I合成において,既存の推論時間記憶緩和戦略は効果がなく,記憶されたテキストトークンへの依存度を十分に低減できないことも確認した。
本稿では,医療画像におけるプライバシの向上と生成モデルの信頼性向上を図るための実用的な戦略を提案する。
最後に,MIMIC-CXRデータセットを用いた人工胸部X線生成のための記憶緩和技術の開発およびベンチマークに関する今後の研究の基盤を提供する。
関連論文リスト
- Detecting, Explaining, and Mitigating Memorization in Diffusion Models [49.438362005962375]
そこで本研究では,テキスト条件予測の大きさを検査することで,暗黙のプロンプトを検出する方法を提案する。
提案手法はサンプリングアルゴリズムを中断することなくシームレスに統合し,第1世代でも高い精度を実現する。
検出戦略に基づいて,個々の単語やトークンの記憶への寄与を示す説明可能なアプローチを提示する。
論文 参考訳(メタデータ) (2024-07-31T16:13:29Z) - Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - Memory-based Cross-modal Semantic Alignment Network for Radiology Report Generation [5.314122066634083]
疾患に関連する重要な情報は、画像と報告の両方においてわずかに占める。
このモデルでは, 放射線画像と報告との間に潜伏する関係を学習することは困難であり, 流動的で正確な放射線画像を生成することは困難である。
メモリベースのクロスモーダルアライメントモデル(MCSAM)をエンコーダ・デコーダのパラダイムに従って提案する。
論文 参考訳(メタデータ) (2024-03-31T07:30:41Z) - Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report
Generation [92.73584302508907]
コントラスト学習を用いた医療レポート作成を支援するために,動的構造とノードを持つ知識グラフを提案する。
詳しくは、グラフの基本構造は一般知識から事前構築される。
各イメージ機能は、レポート生成のためにデコーダモジュールに入力する前に、独自の更新グラフに統合される。
論文 参考訳(メタデータ) (2023-03-18T03:53:43Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Longitudinal detection of new MS lesions using Deep Learning [0.0]
新たなMS病変の検出・分節作業に対処するディープラーニングベースのパイプラインについて述べる。
まず,1つの時間点を用いたセグメンテーションタスクで訓練されたモデルからの移動学習を提案する。
第2に、新しい病変を伴う現実的な縦断時間を生成するためのデータ合成戦略を提案する。
論文 参考訳(メタデータ) (2022-06-16T16:09:04Z) - Cross-modal Memory Networks for Radiology Report Generation [30.13916304931662]
ラジオロジーレポート生成のためのエンコーダデコーダフレームワークを強化するために,クロスモーダルメモリネットワーク(CMN)を提案する。
本モデルでは,放射線画像やテキストからの情報の整合性が向上し,臨床指標の精度向上に寄与する。
論文 参考訳(メタデータ) (2022-04-28T02:32:53Z) - MG-NET: Leveraging Pseudo-Imaging for Multi-Modal Metagenome Analysis [5.04905391284093]
本稿では,自己教師型表現学習フレームワークMG-Netを提案する。
MG-Netはラベルのないデータからロバストな表現を学習できることを示す。
実験により、学習した特徴が現在のベースラインメタジェノム表現より優れていることが示された。
論文 参考訳(メタデータ) (2021-07-21T05:53:01Z) - METGAN: Generative Tumour Inpainting and Modality Synthesis in Light
Sheet Microscopy [4.872960046536882]
本稿では,実解剖情報を活用し,腫瘍の現実的な画像ラベル対を生成する新しい生成法を提案する。
解剖学的画像とラベルのためのデュアルパス生成器を構築し, 独立して事前学習されたセグメンタによって制約された, サイクル一貫性のある設定で学習する。
生成した画像は,既存の手法に比べて定量的に顕著に改善された。
論文 参考訳(メタデータ) (2021-04-22T11:18:17Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。