論文の概要: MAISI-v2: Accelerated 3D High-Resolution Medical Image Synthesis with Rectified Flow and Region-specific Contrastive Loss
- arxiv url: http://arxiv.org/abs/2508.05772v1
- Date: Thu, 07 Aug 2025 18:39:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:05.980811
- Title: MAISI-v2: Accelerated 3D High-Resolution Medical Image Synthesis with Rectified Flow and Region-specific Contrastive Loss
- Title(参考訳): MAISI-v2:3次元高分解能医用画像合成法
- Authors: Can Zhao, Pengfei Guo, Dong Yang, Yucheng Tang, Yufan He, Benjamin Simon, Mason Belue, Stephanie Harmon, Baris Turkbey, Daguang Xu,
- Abstract要約: MAISI-v2は,修正フローを統合し,高速かつ高品質な生成を可能にする最初の3次元医用画像合成フレームワークである。
実験の結果,MAISI-v2 は潜時拡散モデルに対して 3 倍の加速で SOTA の画質を達成できることがわかった。
また,データ拡張に合成画像が使用できることを示すために,下流セグメンテーション実験を行った。
- 参考スコア(独自算出の注目度): 16.360253449683814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical image synthesis is an important topic for both clinical and research applications. Recently, diffusion models have become a leading approach in this area. Despite their strengths, many existing methods struggle with (1) limited generalizability that only work for specific body regions or voxel spacings, (2) slow inference, which is a common issue for diffusion models, and (3) weak alignment with input conditions, which is a critical issue for medical imaging. MAISI, a previously proposed framework, addresses generalizability issues but still suffers from slow inference and limited condition consistency. In this work, we present MAISI-v2, the first accelerated 3D medical image synthesis framework that integrates rectified flow to enable fast and high quality generation. To further enhance condition fidelity, we introduce a novel region-specific contrastive loss to enhance the sensitivity to region of interest. Our experiments show that MAISI-v2 can achieve SOTA image quality with $33 \times$ acceleration for latent diffusion model. We also conducted a downstream segmentation experiment to show that the synthetic images can be used for data augmentation. We release our code, training details, model weights, and a GUI demo to facilitate reproducibility and promote further development within the community.
- Abstract(参考訳): 医用画像合成は臨床と研究の両方において重要なトピックである。
近年、拡散モデルはこの分野において主要なアプローチとなっている。
その強みにもかかわらず、(1)特定の身体領域やボクセル間隔でのみ機能する限定的な一般化可能性、(2)拡散モデルで共通の問題である遅い推論、(3)医療画像における重要な問題である入力条件との弱い整合性に、既存の多くの手法が苦労している。
以前提案されたフレームワークであるMAISIは、一般化可能性の問題に対処するが、依然として推論が遅いことと条件の整合性に悩まされている。
本研究では, 高速かつ高品質な画像生成を実現するために, 整流を融合した最初の3次元医用画像合成フレームワークであるMAISI-v2を提案する。
条件の忠実度をさらに高めるため,興味領域に対する感度を高めるために,新しい領域特異的コントラスト損失を導入する。
実験の結果,MAISI-v2 は潜時拡散モデルにおいて 3 ドル以上の加速で SOTA 画像の品質を達成できることがわかった。
また,データ拡張に合成画像が使用できることを示すために,下流セグメンテーション実験を行った。
私たちは、再現性を促進し、コミュニティ内でさらなる開発を促進するために、コード、トレーニングの詳細、モデルの重み付け、GUIデモをリリースします。
関連論文リスト
- Reference-Guided Diffusion Inpainting For Multimodal Counterfactual Generation [55.2480439325792]
自律運転や医用画像解析などの安全クリティカルなアプリケーションは、厳格なテストのために広範なマルチモーダルデータを必要とする。
本研究は, 自律運転における合成データ生成法と, 医療画像解析法であるMObIとAnydoorMedの2つの新しい手法を紹介する。
論文 参考訳(メタデータ) (2025-07-30T19:43:47Z) - Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - Similarity-aware Syncretic Latent Diffusion Model for Medical Image Translation with Representation Learning [15.234393268111845]
非造影CT(non-contrast CT)は画像のコントラストと解剖学的視認性を低下させ、診断の不確実性を増大させる可能性がある。
医用画像翻訳のための潜時拡散モデルに基づく新しいシンプレティック生成モデル(S$2$LDM)を提案する。
S$2$LDMは、シンプレティックエンコーディングと拡散を通じて、異なるモーダル画像の類似性を高め、潜伏空間における重複情報を促進し、対照的に強調された領域でより詳細な医療画像を生成する。
論文 参考訳(メタデータ) (2024-06-20T03:54:41Z) - MediSyn: A Generalist Text-Guided Latent Diffusion Model For Diverse Medical Image Synthesis [4.541407789437896]
MediSynは6つの専門医と10種類の画像から合成画像を生成することができるテキスト誘導潜在拡散モデルである。
合成画像と実画像との直接比較により,本モデルが新規画像の合成を行い,患者のプライバシを重要視する可能性が確認された。
本研究は,一般画像生成モデルが医学におけるアルゴリズム研究と開発を加速する大きな可能性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-05-16T04:28:44Z) - Taming Latent Diffusion Model for Neural Radiance Field Inpainting [63.297262813285265]
ニューラル・ラジアンス・フィールド(NeRF)は多視点画像からの3次元再構成の表現である。
本研究では,シーンごとのカスタマイズによる拡散モデルの傾向の緩和と,マスキングトレーニングによるテクスチャシフトの緩和を提案する。
我々のフレームワークは、様々な現実世界のシーンに最先端のNeRF塗装結果をもたらす。
論文 参考訳(メタデータ) (2024-04-15T17:59:57Z) - Towards Detailed Text-to-Motion Synthesis via Basic-to-Advanced
Hierarchical Diffusion Model [60.27825196999742]
本稿では,B2A-HDMと呼ばれる新しい階層型拡散モデルを提案する。
特に、低次元ラテント空間における基本拡散モデルは、テキスト記述と整合した中間偏微分結果を与える。
高次元ラテント空間における高度な拡散モデルは、以下の詳細エンハンス・デノナイジング過程に焦点をあてる。
論文 参考訳(メタデータ) (2023-12-18T06:30:39Z) - Conditional Diffusion Models for Semantic 3D Brain MRI Synthesis [0.0]
Med-DDPMは3次元意味脳MRI合成のための拡散モデルである。
セマンティックコンディショニングを統合することで、データの不足とプライバシの問題に効果的に取り組む。
視覚的忠実度の高い多様なコヒーレントな画像を生成する。
論文 参考訳(メタデータ) (2023-05-29T04:14:38Z) - InDuDoNet+: A Model-Driven Interpretable Dual Domain Network for Metal
Artifact Reduction in CT Images [53.4351366246531]
InDuDoNet+と呼ばれる新しい解釈可能な二重ドメインネットワークを構築し、CT画像の微細な埋め込みを行う。
異なる組織間のCT値を分析し,InDuDoNet+の事前観測ネットワークにマージすることで,その一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-23T15:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。