論文の概要: Text-to-CT Generation via 3D Latent Diffusion Model with Contrastive Vision-Language Pretraining
- arxiv url: http://arxiv.org/abs/2506.00633v1
- Date: Sat, 31 May 2025 16:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.379238
- Title: Text-to-CT Generation via 3D Latent Diffusion Model with Contrastive Vision-Language Pretraining
- Title(参考訳): コントラスト視覚言語事前学習を用いた3次元遅延拡散モデルによるテキスト・ツー・CT生成
- Authors: Daniele Molino, Camillo Maria Caruso, Filippo Ruffini, Paolo Soda, Valerio Guarrasi,
- Abstract要約: 本稿では,3次元コントラッシブな視覚-言語事前学習方式と潜在拡散モデルを組み合わせたテキスト-CT生成のための新しいアーキテクチャを提案する。
本手法は,テキストから臨床的に有意なCTボリュームを合成するための,スケーラブルで制御可能なソリューションを提供する。
- 参考スコア(独自算出の注目度): 0.8714814768600079
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Objective: While recent advances in text-conditioned generative models have enabled the synthesis of realistic medical images, progress has been largely confined to 2D modalities such as chest X-rays. Extending text-to-image generation to volumetric Computed Tomography (CT) remains a significant challenge, due to its high dimensionality, anatomical complexity, and the absence of robust frameworks that align vision-language data in 3D medical imaging. Methods: We introduce a novel architecture for Text-to-CT generation that combines a latent diffusion model with a 3D contrastive vision-language pretraining scheme. Our approach leverages a dual-encoder CLIP-style model trained on paired CT volumes and radiology reports to establish a shared embedding space, which serves as the conditioning input for generation. CT volumes are compressed into a low-dimensional latent space via a pretrained volumetric VAE, enabling efficient 3D denoising diffusion without requiring external super-resolution stages. Results: We evaluate our method on the CT-RATE dataset and conduct a comprehensive assessment of image fidelity, clinical relevance, and semantic alignment. Our model achieves competitive performance across all tasks, significantly outperforming prior baselines for text-to-CT generation. Moreover, we demonstrate that CT scans synthesized by our framework can effectively augment real data, improving downstream diagnostic performance. Conclusion: Our results show that modality-specific vision-language alignment is a key component for high-quality 3D medical image generation. By integrating contrastive pretraining and volumetric diffusion, our method offers a scalable and controllable solution for synthesizing clinically meaningful CT volumes from text, paving the way for new applications in data augmentation, medical education, and automated clinical simulation.
- Abstract(参考訳): 目的: テキスト条件生成モデルの最近の進歩により, 現実的な医用画像の合成が可能になったが, 進歩は胸部X線などの2次元モダリティに限られている。
CT(CT)へのテキスト・ツー・イメージ生成の拡張は、高次元性、解剖学的複雑さ、三次元医用画像における視覚言語データの整合性を示す堅牢なフレームワークの欠如など、依然として大きな課題である。
方法: 遅延拡散モデルと3次元コントラッシブな視覚-言語事前学習方式を組み合わせたテキスト-CT生成のための新しいアーキテクチャを提案する。
提案手法では,ペアCTボリュームとラジオグラフィーレポートに基づいて訓練されたデュアルエンコーダCLIPスタイルのモデルを用いて,コンディショニング入力として機能する共有埋め込み空間を確立する。
CTボリュームは、事前訓練されたボリュームVAEを介して低次元の潜在空間に圧縮され、外部の超分解能ステージを必要とせず、効率的な3Dデノナイズ拡散を可能にする。
結果: CT-RATEデータセットを用いて,画像の忠実度,臨床的妥当性,意味的アライメントを総合的に評価した。
本モデルでは,全タスク間での競合性能が向上し,テキスト・ツー・CT生成における先行ベースラインを著しく上回っている。
さらに,本フレームワークにより合成されたCTスキャンにより,実データの有用性が向上し,下流診断性能が向上することが実証された。
結論: この結果から, モダリティ特異的な視覚言語アライメントが高品質な3次元医用画像生成の鍵となることが示唆された。
対照的な事前学習とボリューム拡散を統合することで,テキストから臨床的に有意なCTボリュームを合成し,データ拡張,医療教育,自動臨床シミュレーションに新たな応用を開拓する,スケーラブルで制御可能なソリューションを提供する。
関連論文リスト
- 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - GuideGen: A Text-Guided Framework for Full-torso Anatomy and CT Volume Generation [1.138481191622247]
GuideGenは、フリーフォームのテキストプロンプトに基づいて、胸部から骨盤まで、解剖学的マスクとそれに対応するCTボリュームを生成する制御可能なフレームワークである。
提案手法は,リアルなフルトルソ解剖を作成するためのテキスト条件セマンティックシンセサイザー,コントラストを意識した様々なコントラストレベルの詳細な特徴抽出用オートエンコーダ,CT画像,解剖学的セマンティクス,入力プロンプト間のアライメントを保証する潜在特徴生成装置の3つのコアコンポーネントを含む。
論文 参考訳(メタデータ) (2024-03-12T02:09:39Z) - MedSyn: Text-guided Anatomy-aware Synthesis of High-Fidelity 3D CT Images [22.455833806331384]
本稿では,テキスト情報によって誘導される高品質な3次元肺CT画像を作成するための革新的な手法を提案する。
現在の最先端のアプローチは、低解像度の出力に限られており、放射線学レポートの豊富な情報を不活用している。
論文 参考訳(メタデータ) (2023-10-05T14:16:22Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Hierarchical Amortized Training for Memory-efficient High Resolution 3D
GAN [52.851990439671475]
本稿では,高解像度な3D画像を生成することができる新しいエンドツーエンドGANアーキテクチャを提案する。
トレーニングと推論の異なる構成を使用することで、この目標を達成する。
3次元胸郭CTと脳MRIの実験により、我々のアプローチは画像生成における最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2020-08-05T02:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。