論文の概要: Radiology Report Conditional 3D CT Generation with Multi Encoder Latent diffusion Model
- arxiv url: http://arxiv.org/abs/2509.14780v1
- Date: Thu, 18 Sep 2025 09:32:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.148144
- Title: Radiology Report Conditional 3D CT Generation with Multi Encoder Latent diffusion Model
- Title(参考訳): マルチエンコーダ遅延拡散モデルを用いた3次元CT画像の撮影
- Authors: Sina Amirrajab, Zohaib Salahuddin, Sheng Kuang, Henry C. Woodruff, Philippe Lambin,
- Abstract要約: Report2CTは3次元胸部CTボリュームを自由テキストラジオグラフィーレポートから直接合成するための条件拡散フレームワークである。
Report2CTは、優れた視覚的品質とテキスト画像アライメントを備えた解剖学的に一貫したCTボリュームを生成する。
- 参考スコア(独自算出の注目度): 0.830525411228399
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text to image latent diffusion models have recently advanced medical image synthesis, but applications to 3D CT generation remain limited. Existing approaches rely on simplified prompts, neglecting the rich semantic detail in full radiology reports, which reduces text image alignment and clinical fidelity. We propose Report2CT, a radiology report conditional latent diffusion framework for synthesizing 3D chest CT volumes directly from free text radiology reports, incorporating both findings and impression sections using multiple text encoder. Report2CT integrates three pretrained medical text encoders (BiomedVLP CXR BERT, MedEmbed, and ClinicalBERT) to capture nuanced clinical context. Radiology reports and voxel spacing information condition a 3D latent diffusion model trained on 20000 CT volumes from the CT RATE dataset. Model performance was evaluated using Frechet Inception Distance (FID) for real synthetic distributional similarity and CLIP based metrics for semantic alignment, with additional qualitative and quantitative comparisons against GenerateCT model. Report2CT generated anatomically consistent CT volumes with excellent visual quality and text image alignment. Multi encoder conditioning improved CLIP scores, indicating stronger preservation of fine grained clinical details in the free text radiology reports. Classifier free guidance further enhanced alignment with only a minor trade off in FID. We ranked first in the VLM3D Challenge at MICCAI 2025 on Text Conditional CT Generation and achieved state of the art performance across all evaluation metrics. By leveraging complete radiology reports and multi encoder text conditioning, Report2CT advances 3D CT synthesis, producing clinically faithful and high quality synthetic data.
- Abstract(参考訳): 近年, テキストから画像への拡散モデルによる医用画像合成が進んでいるが, 3次元CT生成への応用は限られている。
既存のアプローチは単純化されたプロンプトに依存しており、完全な放射線学レポートの豊富な意味的詳細を無視し、テキスト画像のアライメントと臨床的忠実さを減少させる。
本報告では,3次元胸部CTボリュームを自由テキストラジオグラフィーレポートから直接合成し,複数のテキストエンコーダを用いて所見と印象区間を組み込むための,放射線学報告条件付き潜時拡散フレームワークであるReport2CTを提案する。
Report2CTは、トレーニング済みの3つの医療用テキストエンコーダ(BiomedVLP CXR BERT, MedEmbed, ClinicalBERT)を統合する。
CT RATEデータセットから20000CTボリュームでトレーニングした3次元潜伏拡散モデルについて,放射線学報告とボクセル間隔情報条件について検討した。
実合成分布類似度に対するFrechet Inception Distance(FID)とセマンティックアライメントのためのCLIPベースのメトリクスを用いたモデル性能の評価を行った。
Report2CTは、画像品質とテキスト画像アライメントに優れ、解剖学的に一貫したCTボリュームを生成した。
マルチエンコーダ・コンディショニングによりCLIPスコアは改善し,自由テキストX線検査ではより微細な臨床像の保存性が向上した。
クラシファイアフリーガイダンスは、FIDにおける小さなトレードオフのみとのアライメントをさらに強化した。
我々は,MICCAI 2025におけるテキスト条件CT生成のVLM3Dチャレンジで第1位となり,すべての評価指標で最先端のパフォーマンスを達成した。
完全放射線学レポートとマルチエンコーダテキストコンディショニングを活用することで、Report2CTは3DCT合成を進め、臨床的に忠実で高品質な合成データを生成する。
関連論文リスト
- CTFlow: Video-Inspired Latent Flow Matching for 3D CT Synthesis [7.57931364659531]
臨床報告に条件付き潜時流整合変圧器モデルであるCTFlowを紹介する。
FLUXのA-VAEを用いて潜伏空間を定義し,CT-Clipテキストエンコーダを用いて臨床報告を符号化する。
我々は,現状のCTモデルと比較し,時間的コヒーレンス,画像の多様性,テキスト画像のアライメントの観点から,我々のアプローチの優位性を実証した。
論文 参考訳(メタデータ) (2025-08-18T12:58:21Z) - A Clinically-Grounded Two-Stage Framework for Renal CT Report Generation [2.988064755409503]
2次元CTスライスから腎X線所見を生成するための2段階の枠組みを提案する。
まず, マルチタスク学習モデルを用いて構造的異常特徴を抽出し, 病変の属性を同定する。
これらの特徴を対応するCT画像と組み合わせ、微調整された視覚言語モデルに入力し、自然言語のレポート文を生成する。
論文 参考訳(メタデータ) (2025-06-30T07:45:02Z) - Text-to-CT Generation via 3D Latent Diffusion Model with Contrastive Vision-Language Pretraining [0.8714814768600079]
本稿では,3次元コントラッシブな視覚-言語事前学習方式と潜在拡散モデルを組み合わせたテキスト-CT生成のための新しいアーキテクチャを提案する。
本手法は,テキストから臨床的に有意なCTボリュームを合成するための,スケーラブルで制御可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-31T16:41:55Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - GuideGen: A Text-Guided Framework for Full-torso Anatomy and CT Volume Generation [1.138481191622247]
GuideGenは、フリーフォームのテキストプロンプトに基づいて、胸部から骨盤まで、解剖学的マスクとそれに対応するCTボリュームを生成する制御可能なフレームワークである。
提案手法は,リアルなフルトルソ解剖を作成するためのテキスト条件セマンティックシンセサイザー,コントラストを意識した様々なコントラストレベルの詳細な特徴抽出用オートエンコーダ,CT画像,解剖学的セマンティクス,入力プロンプト間のアライメントを保証する潜在特徴生成装置の3つのコアコンポーネントを含む。
論文 参考訳(メタデータ) (2024-03-12T02:09:39Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。