論文の概要: Med-Art: Diffusion Transformer for 2D Medical Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2506.20449v1
- Date: Wed, 25 Jun 2025 13:56:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.76751
- Title: Med-Art: Diffusion Transformer for 2D Medical Text-to-Image Generation
- Title(参考訳): Med-Art:2次元医用テキスト・画像生成用拡散変換器
- Authors: Changlu Guo, Anders Nymark Christensen, Morten Rieger Hannemose,
- Abstract要約: 限られたデータで医用画像を生成するためのフレームワークであるMed-Artを提案する。
Med-Art は Diffusion Transformer (DiT) に基づく大規模事前訓練されたテキスト-画像モデル PixArt-$alpha$ に適応する
FID,KID,下流分類による2つの医用画像データセットの最先端性能について検討した。
- 参考スコア(独自算出の注目度): 2.3418061477154786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generative models have achieved remarkable breakthroughs in recent years. However, their application in medical image generation still faces significant challenges, including small dataset sizes, and scarcity of medical textual data. To address these challenges, we propose Med-Art, a framework specifically designed for medical image generation with limited data. Med-Art leverages vision-language models to generate visual descriptions of medical images which overcomes the scarcity of applicable medical textual data. Med-Art adapts a large-scale pre-trained text-to-image model, PixArt-$\alpha$, based on the Diffusion Transformer (DiT), achieving high performance under limited data. Furthermore, we propose an innovative Hybrid-Level Diffusion Fine-tuning (HLDF) method, which enables pixel-level losses, effectively addressing issues such as overly saturated colors. We achieve state-of-the-art performance on two medical image datasets, measured by FID, KID, and downstream classification performance.
- Abstract(参考訳): 近年,テキストから画像への生成モデルは画期的な進歩を遂げている。
しかし、医療画像生成への応用は、小さなデータセットのサイズや医療用テキストデータの不足など、依然として重大な課題に直面している。
これらの課題に対処するため,限られたデータで医用画像を生成するためのフレームワークであるMed-Artを提案する。
Med-Artは視覚言語モデルを利用して、医療用テキストデータの不足を克服する医用画像の視覚的記述を生成する。
Med-Art は Diffusion Transformer (DiT) に基づく大規模な事前訓練されたテキスト・ツー・イメージモデル PixArt-$\alpha$ に対応し、限られたデータで高いパフォーマンスを実現する。
さらに,画素レベルのロスを可能とし,過度に飽和した色などの問題に効果的に対処するHLDF法を提案する。
FID,KID,下流分類による2つの医用画像データセットの最先端性能について検討した。
関連論文リスト
- MedIL: Implicit Latent Spaces for Generating Heterogeneous Medical Images at Arbitrary Resolutions [2.2427832125073732]
MedILは、異質なサイズと解像度で医療画像をエンコードするために開発された、一級のオートエンコーダである。
我々は,MedILが大規模マルチサイト・マルチレゾリューションデータセットに対して臨床的に関連性のある特徴をいかに圧縮し,保存するかを示す。
論文 参考訳(メタデータ) (2025-04-12T19:52:56Z) - Advancing AI-Powered Medical Image Synthesis: Insights from MedVQA-GI Challenge Using CLIP, Fine-Tuned Stable Diffusion, and Dream-Booth + LoRA [3.290817968509798]
MEDVQA-GIチャレンジは、医療診断におけるAI駆動のテキスト・ツー・イメージ生成モデルの統合に対処する。
本研究では、テキスト記述から動的でスケーラブルで正確な画像を生成するための微調整生成モデルに基づく新しいアプローチを提案する。
我々のシステムは、安定拡散モデルとドリームブースモデルと、ローランド適応(LORA)を統合し、高忠実度医療画像を生成する。
論文 参考訳(メタデータ) (2025-02-28T02:49:45Z) - Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - MediSyn: A Generalist Text-Guided Latent Diffusion Model For Diverse Medical Image Synthesis [4.541407789437896]
MediSynは6つの専門医と10種類の画像から合成画像を生成することができるテキスト誘導潜在拡散モデルである。
合成画像と実画像との直接比較により,本モデルが新規画像の合成を行い,患者のプライバシを重要視する可能性が確認された。
本研究は,一般画像生成モデルが医学におけるアルゴリズム研究と開発を加速する大きな可能性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-05-16T04:28:44Z) - End-to-end autoencoding architecture for the simultaneous generation of
medical images and corresponding segmentation masks [3.1133049660590615]
ハミルトン変分オートエンコーダ(HVAE)に基づくエンドツーエンドアーキテクチャを提案する。
従来の変分オートエンコーダ(VAE)と比較して後部分布近似が向上する。
本手法は, 生成的逆境条件より優れ, 画像品質の向上を示す。
論文 参考訳(メタデータ) (2023-11-17T11:56:53Z) - BiomedJourney: Counterfactual Biomedical Image Generation by
Instruction-Learning from Multimodal Patient Journeys [99.7082441544384]
本稿では,インストラクション学習によるバイオメディカル画像生成のための新しい手法であるBiomedJourneyを紹介する。
我々は、GPT-4を用いて、対応する画像レポートを処理し、疾患進行の自然言語記述を生成する。
得られた三重項は、反現実的なバイオメディカル画像生成のための潜伏拡散モデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-10-16T18:59:31Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。