論文の概要: Prompt-Guided Latent Diffusion with Predictive Class Conditioning for 3D Prostate MRI Generation
- arxiv url: http://arxiv.org/abs/2506.10230v1
- Date: Wed, 11 Jun 2025 23:12:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.486653
- Title: Prompt-Guided Latent Diffusion with Predictive Class Conditioning for 3D Prostate MRI Generation
- Title(参考訳): Prompt-Guided Latent Diffusion with Predictive Class Conditioning for 3D 前立腺MRI
- Authors: Emerson P. Grabke, Masoom A. Haider, Babak Taati,
- Abstract要約: 潜在拡散モデル(LDM)は、医療画像の機械学習開発に影響を与えるデータの不足を緩和する可能性がある。
本稿では,これらの制約に対処するクラス定義型大規模言語モデルアダプタ (CCELLA) を提案する。
CCELLAは、LDM U-Netと非医学的な大言語モデルエンコードされたテキスト特徴を同時に条件付ける新しいデュアルヘッド条件付け手法である。
前立腺MRIデータセットの3次元FIDスコアは0.025であり、FID 0.071の最近の基礎モデルよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 1.6508709227918446
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Latent diffusion models (LDM) could alleviate data scarcity challenges affecting machine learning development for medical imaging. However, medical LDM training typically relies on performance- or scientific accessibility-limiting strategies including a reliance on short-prompt text encoders, the reuse of non-medical LDMs, or a requirement for fine-tuning with large data volumes. We propose a Class-Conditioned Efficient Large Language model Adapter (CCELLA) to address these limitations. CCELLA is a novel dual-head conditioning approach that simultaneously conditions the LDM U-Net with non-medical large language model-encoded text features through cross-attention and with pathology classification through the timestep embedding. We also propose a joint loss function and a data-efficient LDM training framework. In combination, these strategies enable pathology-conditioned LDM training for high-quality medical image synthesis given limited data volume and human data annotation, improving LDM performance and scientific accessibility. Our method achieves a 3D FID score of 0.025 on a size-limited prostate MRI dataset, significantly outperforming a recent foundation model with FID 0.071. When training a classifier for prostate cancer prediction, adding synthetic images generated by our method to the training dataset improves classifier accuracy from 69% to 74%. Training a classifier solely on our method's synthetic images achieved comparable performance to training on real images alone.
- Abstract(参考訳): 潜在拡散モデル(LDM)は、医療画像の機械学習開発に影響を与えるデータの不足を緩和する可能性がある。
しかし、医療用LCMトレーニングは、通常、短距離テキストエンコーダへの依存、非医療用LCDの再利用、大規模なデータボリュームでの微調整の要求など、パフォーマンスや科学的なアクセシビリティ制限戦略に依存している。
本稿では,これらの制約に対処するクラス定義型大規模言語モデルアダプタ (CCELLA) を提案する。
CCELLAは、医学的でない大規模言語モデルで符号化されたテキストの特徴と、タイムステップ埋め込みによる病理分類とを同時に条件付ける新しいデュアルヘッドコンディショニング手法である。
また,共同損失関数とデータ効率のLDMトレーニングフレームワークを提案する。
これらの戦略を組み合わせることで、限られたデータ量と人間のデータアノテーションが与えられた高品質な医用画像合成のための病理条件付きLDMトレーニングが可能になり、LDMの性能と科学的アクセシビリティが向上する。
前立腺MRIデータセットの3次元FIDスコアは0.025であり、FID 0.071の最近の基礎モデルよりも大幅に優れていた。
前立腺癌予測のための分類器を訓練する際に,本手法により生成された合成画像をトレーニングデータセットに追加することにより,分類器の精度が69%から74%に向上する。
本手法の合成画像のみを用いた分類器の訓練は,実画像のみでの訓練に匹敵する性能を得た。
関連論文リスト
- Latent Diffusion Autoencoders: Toward Efficient and Meaningful Unsupervised Representation Learning in Medical Imaging [41.446379453352534]
LDAE(Latent Diffusion Autoencoder)は、医用画像における効率的で有意義な教師なし学習のための、エンコーダ-デコーダ拡散に基づく新しいフレームワークである。
本研究は,ADNIデータベースの脳MRIを用いたアルツハイマー病(AD)を事例として検討した。
論文 参考訳(メタデータ) (2025-04-11T15:37:46Z) - LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Cross-conditioned Diffusion Model for Medical Image to Image Translation [22.020931436223204]
医用画像から画像への変換のためのクロスコンディショニング拡散モデル(CDM)を提案する。
まず、目的のモダリティの分布をモデル化するためのモダリティ固有表現モデル(MRM)を提案する。
そして、MDN(Modality-Decoupled Diffusion Network)を設計し、MRMから効率よく効果的に分布を学習する。
論文 参考訳(メタデータ) (2024-09-13T02:48:56Z) - ssVERDICT: Self-Supervised VERDICT-MRI for Enhanced Prostate Tumour
Characterisation [2.755232740505053]
トレーニングデータなしでVERDICT推定パラメータマップを適合させる自己教師型ニューラルネットワーク。
本研究では,SsVERDICTの性能を拡散MRIモデルに適合する2つの確立されたベースライン法と比較する。
論文 参考訳(メタデータ) (2023-09-12T14:31:33Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Conditional Diffusion Models for Semantic 3D Brain MRI Synthesis [0.0]
Med-DDPMは3次元意味脳MRI合成のための拡散モデルである。
セマンティックコンディショニングを統合することで、データの不足とプライバシの問題に効果的に取り組む。
視覚的忠実度の高い多様なコヒーレントな画像を生成する。
論文 参考訳(メタデータ) (2023-05-29T04:14:38Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - About Explicit Variance Minimization: Training Neural Networks for
Medical Imaging With Limited Data Annotations [2.3204178451683264]
VAT(Variance Aware Training)法は、モデル損失関数に分散誤差を導入することにより、この特性を利用する。
多様な領域から得られた3つの医用画像データセットと様々な学習目標に対するVATの有効性を検証した。
論文 参考訳(メタデータ) (2021-05-28T21:34:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。