Fugu-MT 論文翻訳(概要): Prompt to Polyp: Clinically-Aware Medical Image Synthesis with Diffusion Models

論文の概要: Prompt to Polyp: Clinically-Aware Medical Image Synthesis with Diffusion Models

arxiv url: http://arxiv.org/abs/2505.05573v1
Date: Thu, 08 May 2025 18:07:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-12 20:40:10.036394
Title: Prompt to Polyp: Clinically-Aware Medical Image Synthesis with Diffusion Models
Title（参考訳）: Prompt to Polyp:拡散モデルを用いた臨床応用医用画像合成
Authors: Mikhail Chaichuk, Sushant Gautam, Steven Hicks, Elena Tutubalina,
Abstract要約: テキスト記述から現実的な医療画像を生成することは、医療AIにおけるデータ不足問題に対処する大きな可能性を持っている。本稿では,医学領域におけるテキスト・画像合成の総合的研究を行い,二つのアプローチを比較した。臨床テキストエンコーダ,変分オートエンコーダ,クロスアテンション機構を統合したMSDMという新しいモデルを提案する。
参考スコア（独自算出の注目度）: 5.12801085802078
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The generation of realistic medical images from text descriptions has significant potential to address data scarcity challenges in healthcare AI while preserving patient privacy. This paper presents a comprehensive study of text-to-image synthesis in the medical domain, comparing two distinct approaches: (1) fine-tuning large pre-trained latent diffusion models and (2) training small, domain-specific models. We introduce a novel model named MSDM, an optimized architecture based on Stable Diffusion that integrates a clinical text encoder, variational autoencoder, and cross-attention mechanisms to better align medical text prompts with generated images. Our study compares two approaches: fine-tuning large pre-trained models (FLUX, Kandinsky) versus training compact domain-specific models (MSDM). Evaluation across colonoscopy (MedVQA-GI) and radiology (ROCOv2) datasets reveals that while large models achieve higher fidelity, our optimized MSDM delivers comparable quality with lower computational costs. Quantitative metrics and qualitative evaluations by medical experts reveal strengths and limitations of each approach.
Abstract（参考訳）: テキスト記述から現実的な医療画像を生成することは、患者のプライバシを保ちながら、医療AIにおけるデータの不足に対処する大きな可能性を秘めている。本稿では,医学領域におけるテキスト・画像合成の包括的研究を行い,(1)大規模学習済み潜伏拡散モデルの微調整と(2)小領域特化モデルの訓練の2つのアプローチを比較した。臨床用テキストエンコーダ,変分オートエンコーダ,クロスアテンション機構を統合し,医用テキストプロンプトと生成画像との整合性を向上する。本研究では,大規模事前学習モデル (FLUX, Kandinsky) とコンパクトドメイン固有モデル (MSDM) の2つのアプローチを比較した。大腸内視鏡 (MedVQA-GI) と放射線学 (ROCOv2) データセットによる評価により, 大規模モデルでは忠実度が高いが, 最適化したMSDMでは計算コストの低減が図られることがわかった。医学専門家による定量的な測定と質的な評価は、それぞれのアプローチの強さと限界を明らかにする。

関連論文リスト

A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。 CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文参考訳（メタデータ） (2025-12-15T10:22:43Z)
LatentFM: A Latent Flow Matching Approach for Generative Medical Image Segmentation [0.0]
医用画像セグメンテーションのためのフローベースモデルであるLatentFMを提案する。複数の潜在表現をサンプリングすることにより,多様なセグメンテーション出力を合成する。提案手法は,潜在空間において高い効率を保ちながら,より優れたセグメンテーション精度を実現する。
論文参考訳（メタデータ） (2025-12-04T14:06:08Z)
MM-DINOv2: Adapting Foundation Models for Multi-Modal Medical Image Analysis [19.063517827476826]
MM-DINOv2(MM-DINOv2)は,マルチモーダル・メディカル・イメージングのための事前学習型視覚基盤モデルDINOv2に適応する新しいフレームワークである。本手法では,マルチモーダル・パッチの埋め込みを取り入れ,視覚基盤モデルによりマルチモーダル・イメージングデータを効果的に処理することができる。本手法は外部テストセットで0.6のマシューズ相関係数(MCC)を達成し、最先端の教師付きアプローチを+11.1%超える。
論文参考訳（メタデータ） (2025-09-08T12:34:15Z)
VICCA: Visual Interpretation and Comprehension of Chest X-ray Anomalies in Generated Report Without Human Feedback [1.5839621757142595]
本稿では,AI生成医療報告のセマンティックアライメントと位置決め精度の向上を目的とした新しいフレームワークを提案する。元の画像と生成された画像の特徴を比較することにより、デュアルスコーリングシステムを導入する。このアプローチは既存の手法よりも優れており、病理の局在化やテキスト・ツー・イメージのアライメントにおいて最先端の結果が得られている。
論文参考訳（メタデータ） (2025-01-29T16:02:16Z)
Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文参考訳（メタデータ） (2024-12-30T01:59:34Z)
Cross-conditioned Diffusion Model for Medical Image to Image Translation [22.020931436223204]
医用画像から画像への変換のためのクロスコンディショニング拡散モデル(CDM)を提案する。まず、目的のモダリティの分布をモデル化するためのモダリティ固有表現モデル(MRM)を提案する。そして、MDN(Modality-Decoupled Diffusion Network)を設計し、MRMから効率よく効果的に分布を学習する。
論文参考訳（メタデータ） (2024-09-13T02:48:56Z)
MediSyn: A Generalist Text-Guided Latent Diffusion Model For Diverse Medical Image Synthesis [4.541407789437896]
MediSynは6つの専門医と10種類の画像から合成画像を生成することができるテキスト誘導潜在拡散モデルである。合成画像と実画像との直接比較により,本モデルが新規画像の合成を行い,患者のプライバシを重要視する可能性が確認された。本研究は,一般画像生成モデルが医学におけるアルゴリズム研究と開発を加速する大きな可能性を浮き彫りにした。
論文参考訳（メタデータ） (2024-05-16T04:28:44Z)
Improving Medical Report Generation with Adapter Tuning and Knowledge Enhancement in Vision-Language Foundation Models [26.146579369491718]
この研究は、一般的な大規模基盤モデルをカスタマイズするための最先端のビジョン言語事前学習および微調整アプローチBLIP-2に基づく。 ImageCLEFmedical 2023のデータセットのバリデーションでは、いくつかの最先端手法に対して、最も優れた平均結果が得られる。
論文参考訳（メタデータ） (2023-12-07T01:01:45Z)
DiffBoost: Enhancing Medical Image Segmentation via Text-Guided Diffusion Model [3.890243179348094]
医療応用のための堅牢で成功したディープラーニングモデルを開発するためには、大規模で大きな変動のある高品質なデータが不可欠である。本稿では,DiffBoostと呼ばれる医用画像合成のための制御可能な拡散モデルを提案する。近年の拡散確率モデルを利用して、現実的で多様な合成医用画像データを生成する。
論文参考訳（メタデータ） (2023-10-19T16:18:02Z)
PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。提案手法は画像とテキストデータを融合して生成プロセスを強化する。我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文参考訳（メタデータ） (2023-09-01T22:08:32Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
Customizing General-Purpose Foundation Models for Medical Report Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文参考訳（メタデータ） (2023-06-09T03:02:36Z)
RoentGen: Vision-Language Foundation Model for Chest X-ray Generation [7.618389245539657]
我々は,胸部X線のコーパスに事前学習した潜伏拡散モデルを適用することで,大きな自然医学的分布変化を克服する戦略を開発する。テキストプロンプトに条件付された高忠実で多様な合成CXRを生成するモデルの能力について検討する。得られたモデル(RoentGen)が視覚的に説得力があり多様な合成CXR画像を生成することができることを示す。
論文参考訳（メタデータ） (2022-11-23T06:58:09Z)
Adapting Pretrained Vision-Language Foundational Models to Medical Imaging Domains [3.8137985834223502]
臨床の文脈を忠実に描写する医療画像の生成モデルを構築することは、医療データセットの不明瞭さを軽減するのに役立つ。安定拡散パイプラインのサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。我々の最良の性能モデルは、安定な拡散ベースラインを改善し、合成ラジオグラフィ画像に現実的な異常を挿入するように条件付けすることができる。
論文参考訳（メタデータ） (2022-10-09T01:43:08Z)
Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文参考訳（メタデータ） (2021-02-26T02:29:30Z)
Predicting Clinical Diagnosis from Patients Electronic Health Records Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文参考訳（メタデータ） (2020-07-15T09:22:55Z)
Semi-supervised Medical Image Classification with Relation-driven Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文参考訳（メタデータ） (2020-05-15T06:57:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。