論文の概要: VAP-Diffusion: Enriching Descriptions with MLLMs for Enhanced Medical Image Generation
- arxiv url: http://arxiv.org/abs/2506.23641v1
- Date: Mon, 30 Jun 2025 09:11:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.990231
- Title: VAP-Diffusion: Enriching Descriptions with MLLMs for Enhanced Medical Image Generation
- Title(参考訳): VAP拡散:医療画像生成のためのMLLMによる記述の充実
- Authors: Peng Huang, Junhu Fu, Bowen Guo, Zeju Li, Yuanyuan Wang, Yi Guo,
- Abstract要約: 生成モデルは、現実的で多様な画像を生成するためにラベルを超える豊富な属性情報を必要とする。
本稿では,医用画像生成の質と多様性を改善するために,事前訓練されたマルチモーダル言語モデル(MLLM)の外部知識を活用するために,視覚属性プロンプト(VAP)拡散を提案する。
4つのデータセットにまたがる3種類の医用画像の実験により、VAP拡散の有効性が検証された。
- 参考スコア(独自算出の注目度): 7.000306937114167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the appearance of medical images is influenced by multiple underlying factors, generative models require rich attribute information beyond labels to produce realistic and diverse images. For instance, generating an image of skin lesion with specific patterns demands descriptions that go beyond diagnosis, such as shape, size, texture, and color. However, such detailed descriptions are not always accessible. To address this, we explore a framework, termed Visual Attribute Prompts (VAP)-Diffusion, to leverage external knowledge from pre-trained Multi-modal Large Language Models (MLLMs) to improve the quality and diversity of medical image generation. First, to derive descriptions from MLLMs without hallucination, we design a series of prompts following Chain-of-Thoughts for common medical imaging tasks, including dermatologic, colorectal, and chest X-ray images. Generated descriptions are utilized during training and stored across different categories. During testing, descriptions are randomly retrieved from the corresponding category for inference. Moreover, to make the generator robust to unseen combination of descriptions at the test time, we propose a Prototype Condition Mechanism that restricts test embeddings to be similar to those from training. Experiments on three common types of medical imaging across four datasets verify the effectiveness of VAP-Diffusion.
- Abstract(参考訳): 医用画像の出現は、複数の要因の影響を受けているため、生成モデルは、現実的で多様な画像を生成するためにラベルを超えて豊富な属性情報を必要とする。
例えば、特定のパターンで皮膚の病変の画像を生成するには、形状、サイズ、テクスチャ、色など、診断を越えて記述する必要がある。
しかし、このような詳細な記述は必ずしもアクセスできない。
そこで我々は,VAP-Diffusion(Visual Attribute Prompts)と呼ばれるフレームワークを探索し,事前訓練されたマルチモーダル大言語モデル(MLLM)の外部知識を活用し,医用画像生成の品質と多様性を向上させる。
まず,幻覚のないMLLMから記述を導出するため,皮膚科,大腸癌,胸部X線画像など,一般的な医療画像処理のために,Chain-of-Thoughtsに続く一連のプロンプトを設計した。
生成した記述はトレーニング中に利用され、さまざまなカテゴリに格納される。
テスト中、説明は推論のために対応するカテゴリからランダムに検索される。
さらに, テスト時の記述の組み合わさに頑健にするために, テスト埋め込みを訓練時と同じようなものに制限するプロトタイプ条件機構を提案する。
4つのデータセットにまたがる3種類の医用画像の実験により、VAP拡散の有効性が検証された。
関連論文リスト
- MedFILIP: Medical Fine-grained Language-Image Pre-training [11.894318326422054]
既存の手法は、画像と疾患の関連性を正確に特徴づけるのに苦労している。
MedFILIPは対照的な学習を通じて医用画像固有の知識を導入する。
単一ラベル,多ラベル,きめ細かな分類を行う場合,本モデルは最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-01-18T14:08:33Z) - MRGen: Segmentation Data Engine For Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では、生成モデルを利用してトレーニングデータを合成し、未表現のモダリティに対するセグメンテーションモデルを訓練する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - VALD-MD: Visual Attribution via Latent Diffusion for Medical Diagnostics [0.0]
医用画像における視覚的属性は、医用画像の診断関連成分を明確にすることを目指している。
本稿では、潜在拡散モデルとドメイン固有大言語モデルを組み合わせた新しい生成的視覚属性手法を提案する。
結果として生じるシステムは、ゼロショット局所化疾患誘導を含む様々な潜在能力を示す。
論文 参考訳(メタデータ) (2024-01-02T19:51:49Z) - Sam-Guided Enhanced Fine-Grained Encoding with Mixed Semantic Learning
for Medical Image Captioning [12.10183458424711]
本稿では, セグメンション・アプライス・モデル (SAM) でガイドされた新しい医用画像キャプション法について述べる。
本手法では, 医用画像の総合的情報と細部を同時に捉えるために, セマンティック学習を併用した独特な事前学習戦略を採用している。
論文 参考訳(メタデータ) (2023-11-02T05:44:13Z) - BiomedJourney: Counterfactual Biomedical Image Generation by
Instruction-Learning from Multimodal Patient Journeys [99.7082441544384]
本稿では,インストラクション学習によるバイオメディカル画像生成のための新しい手法であるBiomedJourneyを紹介する。
我々は、GPT-4を用いて、対応する画像レポートを処理し、疾患進行の自然言語記述を生成する。
得られた三重項は、反現実的なバイオメディカル画像生成のための潜伏拡散モデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-10-16T18:59:31Z) - Few-shot medical image classification with simple shape and texture text
descriptors using vision-language models [1.1172382217477128]
本稿では,視覚言語モデル(VLM)と大規模言語モデルの有用性について検討する。
我々は、GPT-4モデルを用いて、医用画像中の物体の形状とテクスチャ特性をカプセル化したテキスト記述子を生成する。
論文 参考訳(メタデータ) (2023-08-08T02:48:46Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z) - Generative Adversarial U-Net for Domain-free Medical Image Augmentation [49.72048151146307]
注釈付き医用画像の不足は、医用画像コンピューティングの分野における最大の課題の1つだ。
本稿では,生成逆U-Netという新しい生成手法を提案する。
当社の新しいモデルは、ドメインフリーで、さまざまな医療画像に汎用性があります。
論文 参考訳(メタデータ) (2021-01-12T23:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。