論文の概要: MediSyn: A Generalist Text-Guided Latent Diffusion Model For Diverse Medical Image Synthesis
- arxiv url: http://arxiv.org/abs/2405.09806v5
- Date: Tue, 23 Sep 2025 04:56:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 16:16:25.459657
- Title: MediSyn: A Generalist Text-Guided Latent Diffusion Model For Diverse Medical Image Synthesis
- Title(参考訳): MediSyn: 異種医用画像合成のための汎用テキスト誘導潜在拡散モデル
- Authors: Joseph Cho, Mrudang Mathur, Cyril Zakka, Dhamanpreet Kaur, Matthew Leipzig, Alex Dalal, Aravind Krishnan, Eubee Koo, Karen Wai, Cindy S. Zhao, Akshay Chaudhari, Matthew Duda, Ashley Choi, Ehsan Rahimy, Lyna Azzouz, Robyn Fong, Rohan Shad, William Hiesinger,
- Abstract要約: 6つの専門医と10種類の画像から合成画像を生成することができるテキスト誘導潜在拡散モデルであるMediSynを紹介する。
本研究は,医学におけるアルゴリズム研究と開発を加速する一般画像生成モデルの可能性を明らかにするものである。
- 参考スコア(独自算出の注目度): 4.691545127714417
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep learning algorithms require extensive data to achieve robust performance. However, data availability is often restricted in the medical domain due to patient privacy concerns. Synthetic data presents a possible solution to these challenges. Recently, image generative models have found increasing use for medical applications but are often designed for singular medical specialties and imaging modalities, thus limiting their broader utility. To address this, we introduce MediSyn: a text-guided, latent diffusion model capable of generating synthetic images from 6 medical specialties and 10 image types. Through extensive experimentation, we first demonstrate that MediSyn quantitatively matches or surpasses the performance of specialist models. Second, we show that our synthetic images are realistic and exhibit strong alignment with their corresponding text prompts, as validated by a team of expert physicians. Third, we provide empirical evidence that our synthetic images are visually distinct from their corresponding real patient images. Finally, we demonstrate that in data-limited settings, classifiers trained solely on synthetic data or real data supplemented with synthetic data can outperform those trained solely on real data. Our findings highlight the immense potential of generalist image generative models to accelerate algorithmic research and development in medicine.
- Abstract(参考訳): ディープラーニングアルゴリズムは、堅牢なパフォーマンスを達成するために広範なデータを必要とする。
しかし、患者のプライバシー上の懸念から、医療領域ではデータの可用性が制限されることが多い。
合成データはこれらの課題に対する可能な解決策を提示します。
近年、画像生成モデルは医療用途での利用が増えているが、特定の医療専門性や画像のモダリティのためにしばしば設計されているため、より広範な用途が制限されている。
そこで本研究では,6つの専門医と10種類の画像から合成画像を生成することができるテキスト誘導潜在拡散モデルであるMediSynを紹介する。
広範囲な実験を通して、我々はまず、MedSynが専門モデルの性能と定量的に一致または上回っていることを示す。
第2に,我々の合成画像は現実的であり,専門医のチームが検証したように,対応するテキストプロンプトと強く一致していることを示す。
第三に、我々の合成画像が実際の患者像と視覚的に異なるという経験的証拠を提供する。
最後に、データ制限設定において、合成データにのみ訓練された分類器や、合成データに補完された実データの方が、実際のデータにのみ訓練されたデータよりも優れていることを実証する。
本研究は,医学におけるアルゴリズム研究と開発を加速する一般画像生成モデルの可能性を明らかにするものである。
関連論文リスト
- Diffusion Model-based Data Augmentation Method for Fetal Head Ultrasound Segmentation [1.188383832081829]
生成AI(GenAI)は現実的な合成画像の作成に有効であることが証明されている。
本研究は, 合成胎児頭部超音波画像を生成するためのマスク誘導型GenAIアプローチを提案する。
その結果,合成データは実画像の特徴を効果的に捉えていることがわかった。
論文 参考訳(メタデータ) (2025-06-30T09:40:12Z) - Using Synthetic Images to Augment Small Medical Image Datasets [3.7522420000453]
我々は,高解像度医用画像を生成するため,現在のGAN法であるStyleGAN2の条件変種を開発した。
6つのデータセットから合成された実画像を用いて、セマンティックセグメンテーションの下流タスクのモデルを訓練する。
生成した医用画像の品質と,この拡張がセグメンテーション性能に及ぼす影響をその後評価した。
論文 参考訳(メタデータ) (2025-03-02T17:02:11Z) - Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - MRGen: Segmentation Data Engine For Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では、生成モデルを利用してトレーニングデータを合成し、未表現のモダリティに対するセグメンテーションモデルを訓練する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - Deep Generative Models for 3D Medical Image Synthesis [1.931185411277237]
深部生成モデリングは、現実的な医療画像を合成するための強力なツールとして登場した。
本章では3次元医用画像合成のための様々な深部生成モデルについて考察する。
論文 参考訳(メタデータ) (2024-10-23T08:33:23Z) - Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - Vision-Language Synthetic Data Enhances Echocardiography Downstream Tasks [4.1942958779358674]
本稿では,近年の視覚言語モデルを用いて,多彩でリアルな人工心エコー画像データを作成する。
合成データに含まれるリッチな文脈情報は、下流タスクの精度と解釈可能性を高める可能性があることを示す。
論文 参考訳(メタデータ) (2024-03-28T23:26:45Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。
本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。
3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-19T15:57:04Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - Adaptive Latent Diffusion Model for 3D Medical Image to Image
Translation: Multi-modal Magnetic Resonance Imaging Study [4.3536336830666755]
医用画像解析において,マルチモーダル画像は包括的評価において重要な役割を担っている。
臨床実践では、スキャンコスト、スキャン時間制限、安全性考慮などの理由から、複数のモダリティを取得することは困難である。
本稿では,3次元医用画像のイメージ・ツー・イメージ翻訳において,パッチ・トリッピングを伴わない切り換え可能なブロックを利用するモデルを提案する。
論文 参考訳(メタデータ) (2023-11-01T03:22:57Z) - EMIT-Diff: Enhancing Medical Image Segmentation via Text-Guided
Diffusion Model [4.057796755073023]
EMIT-Diffと呼ばれる医用画像合成のための制御可能な拡散モデルを開発した。
近年の拡散確率モデルを利用して、現実的で多様な合成医用画像データを生成する。
提案手法では, 合成試料が医療上の制約に適合することを確実にする。
論文 参考訳(メタデータ) (2023-10-19T16:18:02Z) - MedSyn: Text-guided Anatomy-aware Synthesis of High-Fidelity 3D CT Images [22.455833806331384]
本稿では,テキスト情報によって誘導される高品質な3次元肺CT画像を作成するための革新的な手法を提案する。
現在の最先端のアプローチは、低解像度の出力に限られており、放射線学レポートの豊富な情報を不活用している。
論文 参考訳(メタデータ) (2023-10-05T14:16:22Z) - Augmenting medical image classifiers with synthetic data from latent
diffusion models [12.077733447347592]
我々は,潜伏拡散モデルが皮膚疾患の画像を生成することを実証した。
我々は,複数の生成戦略を用いて生成した458,920個の合成画像の新しいデータセットを生成し,解析する。
論文 参考訳(メタデータ) (2023-08-23T22:34:49Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Make-A-Volume: Leveraging Latent Diffusion Models for Cross-Modality 3D
Brain MRI Synthesis [35.45013834475523]
クロスモダリティ医療画像合成は重要なトピックであり、医療画像分野における多くの応用を促進する可能性がある。
現在の医療画像合成法のほとんどは、生成的敵ネットワークに依存しており、悪名高いモード崩壊と不安定な訓練に悩まされている。
本稿では,2次元バックボーンを利用した医療データ合成のための新しいパラダイムを提案し,拡散型フレームワークであるMake-A-Volumeを提案する。
論文 参考訳(メタデータ) (2023-07-19T16:01:09Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - Medical Diffusion -- Denoising Diffusion Probabilistic Models for 3D
Medical Image Generation [0.6486409713123691]
拡散確率モデルが高品質な医用画像データを合成可能であることを示す。
本研究は,2人の医療専門家による読影研究を通じて,そのパフォーマンスを定量的に測定する。
自己教師付き事前訓練において合成画像が利用可能であることを示し,データ不足時の乳房分割モデルの性能向上を図った。
論文 参考訳(メタデータ) (2022-11-07T08:37:48Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Generative Adversarial U-Net for Domain-free Medical Image Augmentation [49.72048151146307]
注釈付き医用画像の不足は、医用画像コンピューティングの分野における最大の課題の1つだ。
本稿では,生成逆U-Netという新しい生成手法を提案する。
当社の新しいモデルは、ドメインフリーで、さまざまな医療画像に汎用性があります。
論文 参考訳(メタデータ) (2021-01-12T23:02:26Z) - Modelling the Distribution of 3D Brain MRI using a 2D Slice VAE [66.63629641650572]
本研究では,2次元スライスVAEとガウスモデルを組み合わせた3次元MR脳の体積分布をモデル化する手法を提案する。
また,本研究では,脳解剖学に適合するセグメンテーションの精度を定量的に評価する新たなボリューム評価手法を提案する。
論文 参考訳(メタデータ) (2020-07-09T13:23:15Z) - Diffusion-Weighted Magnetic Resonance Brain Images Generation with
Generative Adversarial Networks and Variational Autoencoders: A Comparison
Study [55.78588835407174]
本研究では,高画質,多彩で現実的な拡散重み付き磁気共鳴画像が深部生成モデルを用いて合成可能であることを示す。
Introspective Variational AutoencoderとStyle-Based GANの2つのネットワークを医療分野におけるデータ拡張の資格として提示する。
論文 参考訳(メタデータ) (2020-06-24T18:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。