論文の概要: CTFlow: Video-Inspired Latent Flow Matching for 3D CT Synthesis
- arxiv url: http://arxiv.org/abs/2508.12900v1
- Date: Mon, 18 Aug 2025 12:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.347508
- Title: CTFlow: Video-Inspired Latent Flow Matching for 3D CT Synthesis
- Title(参考訳): CT Flow:3次元CT合成のためのビデオインスパイアされた潜在フローマッチング
- Authors: Jiayi Wang, Hadrien Reynaud, Franciskus Xaverius Erick, Bernhard Kainz,
- Abstract要約: 臨床報告に条件付き潜時流整合変圧器モデルであるCTFlowを紹介する。
FLUXのA-VAEを用いて潜伏空間を定義し,CT-Clipテキストエンコーダを用いて臨床報告を符号化する。
我々は,現状のCTモデルと比較し,時間的コヒーレンス,画像の多様性,テキスト画像のアライメントの観点から,我々のアプローチの優位性を実証した。
- 参考スコア(独自算出の注目度): 7.57931364659531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative modelling of entire CT volumes conditioned on clinical reports has the potential to accelerate research through data augmentation, privacy-preserving synthesis and reducing regulator-constraints on patient data while preserving diagnostic signals. With the recent release of CT-RATE, a large-scale collection of 3D CT volumes paired with their respective clinical reports, training large text-conditioned CT volume generation models has become achievable. In this work, we introduce CTFlow, a 0.5B latent flow matching transformer model, conditioned on clinical reports. We leverage the A-VAE from FLUX to define our latent space, and rely on the CT-Clip text encoder to encode the clinical reports. To generate consistent whole CT volumes while keeping the memory constraints tractable, we rely on a custom autoregressive approach, where the model predicts the first sequence of slices of the volume from text-only, and then relies on the previously generated sequence of slices and the text, to predict the following sequence. We evaluate our results against state-of-the-art generative CT model, and demonstrate the superiority of our approach in terms of temporal coherence, image diversity and text-image alignment, with FID, FVD, IS scores and CLIP score.
- Abstract(参考訳): 臨床報告に記載されたCTボリューム全体の生成モデリングは、データ強化、プライバシー保護合成、患者データに対する規制制約の低減を通じて、診断信号を保存しながら研究を加速する可能性がある。
最近のCT-RATEのリリースにより, それぞれの臨床報告と組み合わせた大規模3次元CTボリュームの収集が可能となり, 大規模テキストコンディショニングCTボリューム生成モデルの訓練が可能となった。
本研究では,臨床報告に基づく0.5B潜時流整合モデルCTFlowを紹介する。
FLUXのA-VAEを利用して潜伏空間を定義し,CT-Clipテキストエンコーダを用いて臨床報告を符号化する。
メモリ制約を抑えつつ、一貫したCTボリュームを生成するためには、テキストのみからボリュームのスライスの最初のシーケンスを予測し、以前に生成されたスライスとテキストのシーケンスに依存して、次のシーケンスを予測する、独自の自己回帰的アプローチを用いる。
FID,FVD,ISスコア,CLIPスコアによる時間的コヒーレンス,画像多様性,テキスト画像アライメントの観点から,現状のCTモデルと比較し,アプローチの優位性を示した。
関連論文リスト
- Recurrent Visual Feature Extraction and Stereo Attentions for CT Report Generation [18.113659670915474]
本稿では,大規模言語モデル (LLM) に基づくCTRG法を提案する。
具体的には、視覚変換器を用いて、各スライスをCTボリュームで繰り返し処理し、異なる視点から符号化したスライスに注意を払って重要な視覚情報を得る。
ベンチマークM3D-Capデータセットの実験結果とさらなる解析により,本手法が強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2025-06-24T14:29:06Z) - Text-to-CT Generation via 3D Latent Diffusion Model with Contrastive Vision-Language Pretraining [0.8714814768600079]
本稿では,3次元コントラッシブな視覚-言語事前学習方式と潜在拡散モデルを組み合わせたテキスト-CT生成のための新しいアーキテクチャを提案する。
本手法は,テキストから臨床的に有意なCTボリュームを合成するための,スケーラブルで制御可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-31T16:41:55Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - GuideGen: A Text-Guided Framework for Full-torso Anatomy and CT Volume Generation [1.138481191622247]
GuideGenは、フリーフォームのテキストプロンプトに基づいて、胸部から骨盤まで、解剖学的マスクとそれに対応するCTボリュームを生成する制御可能なフレームワークである。
提案手法は,リアルなフルトルソ解剖を作成するためのテキスト条件セマンティックシンセサイザー,コントラストを意識した様々なコントラストレベルの詳細な特徴抽出用オートエンコーダ,CT画像,解剖学的セマンティクス,入力プロンプト間のアライメントを保証する潜在特徴生成装置の3つのコアコンポーネントを含む。
論文 参考訳(メタデータ) (2024-03-12T02:09:39Z) - GenerateCT: Text-Conditional Generation of 3D Chest CT Volumes [2.410738584733268]
GenerateCTは、フリーフォームの医療用テキストプロンプトに条件付けされた3D医療用画像を生成するための最初のアプローチである。
GenerateCTを最先端のメソッドと比較し、すべての主要な指標でその優位性を実証した。
GenerateCTは、任意のサイズの合成トレーニングデータセットのスケーリングを可能にする。
論文 参考訳(メタデータ) (2023-05-25T13:16:39Z) - Incremental Cross-view Mutual Distillation for Self-supervised Medical
CT Synthesis [88.39466012709205]
本稿では,スライス間の分解能を高めるために,新しい医療スライスを構築した。
臨床実践において, 根本・中間医療スライスは常に欠落していることを考慮し, 相互蒸留の段階的相互蒸留戦略を導入する。
提案手法は,最先端のアルゴリズムよりも明確なマージンで優れる。
論文 参考訳(メタデータ) (2021-12-20T03:38:37Z) - Efficient Learning and Decoding of the Continuous-Time Hidden Markov
Model for Disease Progression Modeling [119.50438407358862]
本稿では,CT-HMMモデルに対する効率的なEMベースの学習手法の完全な特徴付けについて述べる。
EMに基づく学習は、後状態確率の推定と、状態条件付き統計量の計算という2つの課題から成り立っていることを示す。
緑内障データセットとアルツハイマー病データセットを用いて,100以上の状態のCT-HMMを用いて疾患進行の可視化と予測を行う。
論文 参考訳(メタデータ) (2021-10-26T20:06:05Z) - CyTran: A Cycle-Consistent Transformer with Multi-Level Consistency for
Non-Contrast to Contrast CT Translation [56.622832383316215]
コントラストCTを非コントラストCTに変換する手法を提案する。
提案手法は、CyTranを略して、サイクル一貫性のある生成逆転変換器に基づいている。
実験の結果、CyTranは競合するすべての手法より優れています。
論文 参考訳(メタデータ) (2021-10-12T23:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。