論文の概要: Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation
- arxiv url: http://arxiv.org/abs/2510.06131v1
- Date: Tue, 07 Oct 2025 17:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.371781
- Title: Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation
- Title(参考訳): 統合医療マルチモーダル生成のためのMLLMを用いた離散拡散モデル
- Authors: Jiawei Mao, Yuhan Wang, Lifeng Chen, Can Zhao, Yucheng Tang, Dong Yang, Liangqiong Qu, Daguang Xu, Yuyin Zhou,
- Abstract要約: そこで我々は, モーダリティに比例しない, モーダリティ間の共有分布を学習する医学的離散拡散モデルMeDiMを提案する。
MeDiMは、画像とテキストの変換と、プロンプトに応答して、ドメイン間で画像-レポートペアを共同で生成する、複数の生成タスクを統一する。
- 参考スコア(独自算出の注目度): 30.047148886472637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in generative medical models are constrained by modality-specific scenarios that hinder the integration of complementary evidence from imaging, pathology, and clinical notes. This fragmentation limits their evolution into foundation models that can learn and reason across the full spectrum of biomedical data. We propose MeDiM, the first medical discrete diffusion model that learns shared distributions across modalities without modality-specific components. MeDiM unifies multiple generative tasks: translating between images and text, and jointly producing image-report pairs across domains in response to prompts. Built on a discrete diffusion framework, MeDiM bridges vision and language representations through a shared probabilistic space. To enable unified and flexible medical generation, we employ a multimodal large language model (MLLM) as the diffusion backbone, leveraging its prior knowledge and cross-modal reasoning. Two key designs are introduced: (1) removing the causal attention mask for bidirectional context, and (2) injecting continuous timestep embeddings for diffusion awareness. Experiments demonstrate high-fidelity medical generation (FID 16.60 on MIMIC-CXR and FID 24.19 on PathGen) and accurate report generation (METEOR 0.2650 and 0.2580). Jointly generated image-report pairs further enhance downstream performance (plus6.43 percent BLEU-1, plus18.57 percent BLEU-2, plus31.58 percent BLEU-3, plus4.80 percent METEOR), showing that MeDiM supports coherent and clinically grounded multimodal outputs.
- Abstract(参考訳): 生成医療モデルの最近の進歩は、画像、病理、臨床ノートからの補完的証拠の統合を妨げるモダリティ固有のシナリオによって制約されている。
この断片化は、バイオメディカルデータの完全なスペクトルを学習し、推論できる基盤モデルへの進化を制限する。
本稿では,モーダリティに比例しない分散分布を学習する最初の医用離散拡散モデルであるMeDiMを提案する。
MeDiMは、画像とテキストの変換と、プロンプトに応答して、ドメイン間で画像-レポートペアを共同で生成する、複数の生成タスクを統一する。
離散拡散フレームワーク上に構築されたMeDiMは、共通の確率空間を通じてビジョンと言語表現をブリッジする。
統一的で柔軟な医療生成を実現するため,拡散バックボーンとして多モーダル大言語モデル(MLLM)を用い,その先行知識と相互モーダル推論を活用する。
1) 双方向コンテキストにおける因果注意マスクの除去,(2) 拡散認識のための連続的な時間ステップ埋め込みの注入,の2つの主要な設計が提案されている。
実験では、MIMIC-CXRでFID 16.60、PathGenでFID 24.19、正確なレポート生成(METEOR 0.2650、0.2580)が示されている。
共同生成した画像レポートペアは下流のパフォーマンスをさらに向上させ(プラス6.43パーセントのBLEU-1、プラス18.57パーセントのBLEU-2、プラス31.58パーセントのBLEU-3、プラス4.80パーセントのMETEOR)、MeDiMは一貫性と臨床に根ざしたマルチモーダル出力をサポートしている。
関連論文リスト
- ProbMed: A Probabilistic Framework for Medical Multimodal Binding [21.27709522688514]
確率的モダリティ向上診断(ProbMED)について紹介する。
ProbMEDは、X線、心電図、心エコー計の4つの異なるモードを、統一された確率的埋め込み空間に整列させる。
本モデルでは, クロスモーダル検索, ゼロショット分類, 少数ショット分類において, 現在の医用視覚言語事前訓練モデルより優れている。
論文 参考訳(メタデータ) (2025-09-30T03:16:01Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - Cross-conditioned Diffusion Model for Medical Image to Image Translation [22.020931436223204]
医用画像から画像への変換のためのクロスコンディショニング拡散モデル(CDM)を提案する。
まず、目的のモダリティの分布をモデル化するためのモダリティ固有表現モデル(MRM)を提案する。
そして、MDN(Modality-Decoupled Diffusion Network)を設計し、MRMから効率よく効果的に分布を学習する。
論文 参考訳(メタデータ) (2024-09-13T02:48:56Z) - MedM2G: Unifying Medical Multi-Modal Generation via Cross-Guided
Diffusion with Visual Invariant [15.30998544228763]
MedM2Gは、テキスト・ツー・イメージ、画像・トゥ・テキスト、医用モダリティの統一的な生成タスクを統一する医療生成モデルである。
10のデータセットにまたがって5つの医療生成タスクを実行する。
論文 参考訳(メタデータ) (2024-03-07T07:39:00Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Ambiguous Medical Image Segmentation using Diffusion Models [60.378180265885945]
我々は,グループ洞察の分布を学習することで,複数の可算出力を生成する単一拡散モデルに基づくアプローチを提案する。
提案モデルでは,拡散の固有のサンプリングプロセスを利用してセグメンテーションマスクの分布を生成する。
その結果,提案手法は既存の最先端曖昧なセグメンテーションネットワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-10T17:58:22Z) - DiffMIC: Dual-Guidance Diffusion Network for Medical Image
Classification [32.67098520984195]
一般医用画像分類のための拡散モデル(DiffMIC)を提案する。
実験の結果,DiffMICは最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-03-19T09:15:45Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。