論文の概要: MedSyn2: Flexible Control of 3D CT Generation via Text and Semantically-Defined Segmentation Prompts
- arxiv url: http://arxiv.org/abs/2606.00967v2
- Date: Wed, 03 Jun 2026 17:10:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.585784
- Title: MedSyn2: Flexible Control of 3D CT Generation via Text and Semantically-Defined Segmentation Prompts
- Title(参考訳): MedSyn2:テキストとSemantically-Defined Segmentation Promptによる3次元CT生成の柔軟な制御
- Authors: Weicheng Dai, Chenyu Wang, Andy Li, Shantanu Ghosh, Afrooz Zandifar, Christina LeBedis, Kayhan Batmanghelich,
- Abstract要約: 本稿では,放射線学レポートやセグメンテーションプロンプトからの入力をサポートする可制御性ボリューム画像生成のためのフレキシブルなフレームワークを提案する。
我々のアプローチでは、ユーザーは完全なアノテーションを必要とせずに、特定の解剖学または異常のセグメンテーションを提供できる。
- 参考スコア(独自算出の注目度): 10.292505344385413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models for volumetric medical images have found many applications in medical imaging, ranging from data augmentation to serving as priors for inverse problems. For these applications, generating high-resolution 3D images with strong controllability is essential but remains highly challenging. Existing approaches typically control generation either through radiology reports used as text prompts or through full image segmentation. While text-based prompting is flexible, it provides limited spatial control over the location, shape, and boundary of abnormalities. In contrast, segmentation-based methods receive precise spatial guidance but are restrictive in requiring full-organ annotations. In this work, we propose a flexible multimodal framework for controllable volumetric image generation that supports input from radiology reports and segmentation prompts (both optional). Our approach allows users to provide segmentation of a specific anatomy or abnormality without requiring full-organ annotations. The semantic meaning of the segmentation mask is specified through an accompanying text description, resulting in a highly flexible and scalable conditioning mechanism. We develop a memory-efficient architecture based on a modified diffusion transformer that jointly processes image and segmentation tokens. The model further incorporates gated attention to effectively attend to long radiology reports. Experiments demonstrate that our method achieves state-of-the-art perceptual and semantic scores (e.g., 24% relative improvement in mean FID), generates high-resolution anatomically consistent CT volumes, and improves data efficiency when used for data augmentation. Radiologists' evaluation further confirms strong alignment between generated and real medical images.
- Abstract(参考訳): ボリューム医用画像の生成モデルは、データ増強から逆問題の前兆となるものまで、医療画像に多くの応用を見出している。
これらのアプリケーションでは、強い制御性を持つ高解像度の3D画像を生成することが不可欠であるが、依然として非常に難しい。
既存のアプローチは、通常、テキストプロンプトとして使われる放射線学レポートまたはフルイメージセグメンテーションを通じて生成を制御する。
テキストベースのプロンプトは柔軟だが、異常の位置、形状、境界を空間的に限定的に制御できる。
対照的に、セグメンテーションに基づく手法は正確な空間的ガイダンスを受け取っているが、完全なアノテーションを必要とする場合は制限的である。
本研究では,ラジオグラフィレポートやセグメンテーションプロンプトからの入力をサポートする可変ボリューム画像生成のためのフレキシブル・マルチモーダル・フレームワークを提案する。
我々のアプローチでは、ユーザーは完全なアノテーションを必要とせずに、特定の解剖学または異常のセグメンテーションを提供できる。
セグメンテーションマスクの意味は、付随するテキスト記述を通じて特定され、非常に柔軟でスケーラブルな条件付け機構となる。
画像とセグメンテーショントークンを共同処理する拡散変換器を改良したメモリ効率のアーキテクチャを開発した。
このモデルは、長期の放射線学レポートに効果的に出席するために、さらに注意を喚起する。
実験により,本手法は最先端の知覚的・意味的スコア(例えば,FIDの平均24%の相対的改善)を達成し,高分解能な解剖学的CTボリュームを生成し,データ拡張に使用する際のデータ効率を向上することを示した。
放射線医の評価は、生成された医用画像と実際の医用画像との強い整合性をさらに確認する。
関連論文リスト
- Layout-Guided Controllable Pathology Image Generation with In-Context Diffusion Transformers [57.54843029965778]
制御可能な病理画像合成には、空間配置、組織形態、意味的詳細の信頼できる規制が必要である。
In-Context Diffusion Transformer (IC-DiT) は,空間レイアウト,テキスト記述,視覚的埋め込みを統合拡散変換器に組み込んだレイアウト認識生成モデルである。
IC-DiTは既存の方法よりも忠実度が高く、空間制御性が強く、診断の整合性が良くなる。
論文 参考訳(メタデータ) (2026-03-11T06:14:11Z) - TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation [56.09179939570486]
本稿では,パラメータ効率,タスク固有適応に着目したCLIPベースのフレームワークであるTGC-Netを提案する。
TGC-Netは、挑戦的なベンチマークで顕著なDiceゲインを含む、トレーニング可能なパラメータをかなり少なくして、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-24T12:06:26Z) - MRGen: Segmentation Data Engine for Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では,データ合成における生成モデルの利用について検討する。
本稿では,テキストプロンプトとセグメンテーションマスクを条件とした医用画像合成のためのデータエンジンMRGenを提案する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - Advancing Medical Image Segmentation: Morphology-Driven Learning with Diffusion Transformer [4.672688418357066]
本稿では,雑音の存在下での頑健なセグメンテーションのためのトランスフォーマー拡散(DTS)モデルを提案する。
画像の形態的表現を解析する本モデルでは, 種々の医用画像モダリティにおいて, 従来のモデルよりも良好な結果が得られた。
論文 参考訳(メタデータ) (2024-08-01T07:35:54Z) - Introducing Shape Prior Module in Diffusion Model for Medical Image
Segmentation [7.7545714516743045]
拡散確率モデル(DDPM)を利用したVerseDiff-UNetというエンドツーエンドフレームワークを提案する。
我々のアプローチは拡散モデルを標準のU字型アーキテクチャに統合する。
本手法はX線画像から得られた脊椎画像の1つのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2023-09-12T03:05:00Z) - Self-supervised Semantic Segmentation: Consistency over Transformation [3.485615723221064]
Inception Large Kernel Attention (I-LKA) モジュールをベースとしたロバストなフレームワークを統合した新しい自己教師型アルゴリズム textbfS$3$-Net を提案する。
我々は、変形可能な畳み込みを積分成分として利用し、優れた物体境界定義のための歪み変形を効果的に捕捉し、デライン化する。
皮膚病変および肺臓器の分節タスクに関する実験結果から,SOTA法と比較して,本手法の優れた性能を示した。
論文 参考訳(メタデータ) (2023-08-31T21:28:46Z) - A unified 3D framework for Organs at Risk Localization and Segmentation
for Radiation Therapy Planning [56.52933974838905]
現在の医療ワークフローは、OAR(Organs-at-risk)のマニュアル記述を必要とする
本研究は,OARローカライゼーション・セグメンテーションのための統合された3Dパイプラインの導入を目的とする。
提案手法は医用画像に固有の3Dコンテキスト情報の活用を可能にする。
論文 参考訳(メタデータ) (2022-03-01T17:08:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。