論文の概要: Prompt to Polyp: Clinically-Aware Medical Image Synthesis with Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.05573v1
- Date: Thu, 08 May 2025 18:07:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.036394
- Title: Prompt to Polyp: Clinically-Aware Medical Image Synthesis with Diffusion Models
- Title(参考訳): Prompt to Polyp:拡散モデルを用いた臨床応用医用画像合成
- Authors: Mikhail Chaichuk, Sushant Gautam, Steven Hicks, Elena Tutubalina,
- Abstract要約: テキスト記述から現実的な医療画像を生成することは、医療AIにおけるデータ不足問題に対処する大きな可能性を持っている。
本稿では,医学領域におけるテキスト・画像合成の総合的研究を行い,二つのアプローチを比較した。
臨床テキストエンコーダ,変分オートエンコーダ,クロスアテンション機構を統合したMSDMという新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 5.12801085802078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generation of realistic medical images from text descriptions has significant potential to address data scarcity challenges in healthcare AI while preserving patient privacy. This paper presents a comprehensive study of text-to-image synthesis in the medical domain, comparing two distinct approaches: (1) fine-tuning large pre-trained latent diffusion models and (2) training small, domain-specific models. We introduce a novel model named MSDM, an optimized architecture based on Stable Diffusion that integrates a clinical text encoder, variational autoencoder, and cross-attention mechanisms to better align medical text prompts with generated images. Our study compares two approaches: fine-tuning large pre-trained models (FLUX, Kandinsky) versus training compact domain-specific models (MSDM). Evaluation across colonoscopy (MedVQA-GI) and radiology (ROCOv2) datasets reveals that while large models achieve higher fidelity, our optimized MSDM delivers comparable quality with lower computational costs. Quantitative metrics and qualitative evaluations by medical experts reveal strengths and limitations of each approach.
- Abstract(参考訳): テキスト記述から現実的な医療画像を生成することは、患者のプライバシを保ちながら、医療AIにおけるデータの不足に対処する大きな可能性を秘めている。
本稿では,医学領域におけるテキスト・画像合成の包括的研究を行い,(1)大規模学習済み潜伏拡散モデルの微調整と(2)小領域特化モデルの訓練の2つのアプローチを比較した。
臨床用テキストエンコーダ,変分オートエンコーダ,クロスアテンション機構を統合し,医用テキストプロンプトと生成画像との整合性を向上する。
本研究では,大規模事前学習モデル (FLUX, Kandinsky) とコンパクトドメイン固有モデル (MSDM) の2つのアプローチを比較した。
大腸内視鏡 (MedVQA-GI) と放射線学 (ROCOv2) データセットによる評価により, 大規模モデルでは忠実度が高いが, 最適化したMSDMでは計算コストの低減が図られることがわかった。
医学専門家による定量的な測定と質的な評価は、それぞれのアプローチの強さと限界を明らかにする。
関連論文リスト
- VICCA: Visual Interpretation and Comprehension of Chest X-ray Anomalies in Generated Report Without Human Feedback [1.5839621757142595]
本稿では,AI生成医療報告のセマンティックアライメントと位置決め精度の向上を目的とした新しいフレームワークを提案する。
元の画像と生成された画像の特徴を比較することにより、デュアルスコーリングシステムを導入する。
このアプローチは既存の手法よりも優れており、病理の局在化やテキスト・ツー・イメージのアライメントにおいて最先端の結果が得られている。
論文 参考訳(メタデータ) (2025-01-29T16:02:16Z) - Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - MediSyn: A Generalist Text-Guided Latent Diffusion Model For Diverse Medical Image Synthesis [4.541407789437896]
MediSynは6つの専門医と10種類の画像から合成画像を生成することができるテキスト誘導潜在拡散モデルである。
合成画像と実画像との直接比較により,本モデルが新規画像の合成を行い,患者のプライバシを重要視する可能性が確認された。
本研究は,一般画像生成モデルが医学におけるアルゴリズム研究と開発を加速する大きな可能性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-05-16T04:28:44Z) - Improving Medical Report Generation with Adapter Tuning and Knowledge
Enhancement in Vision-Language Foundation Models [26.146579369491718]
この研究は、一般的な大規模基盤モデルをカスタマイズするための最先端のビジョン言語事前学習および微調整アプローチBLIP-2に基づく。
ImageCLEFmedical 2023のデータセットのバリデーションでは、いくつかの最先端手法に対して、最も優れた平均結果が得られる。
論文 参考訳(メタデータ) (2023-12-07T01:01:45Z) - DiffBoost: Enhancing Medical Image Segmentation via Text-Guided Diffusion Model [3.890243179348094]
医療応用のための堅牢で成功したディープラーニングモデルを開発するためには、大規模で大きな変動のある高品質なデータが不可欠である。
本稿では,DiffBoostと呼ばれる医用画像合成のための制御可能な拡散モデルを提案する。
近年の拡散確率モデルを利用して、現実的で多様な合成医用画像データを生成する。
論文 参考訳(メタデータ) (2023-10-19T16:18:02Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。