論文の概要: MedSyn: Text-guided Anatomy-aware Synthesis of High-Fidelity 3D CT Images
- arxiv url: http://arxiv.org/abs/2310.03559v5
- Date: Tue, 18 Jun 2024 22:26:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 06:37:18.924342
- Title: MedSyn: Text-guided Anatomy-aware Synthesis of High-Fidelity 3D CT Images
- Title(参考訳): MedSyn:高忠実度3DCT画像のテキスト誘導型解剖学的合成
- Authors: Yanwu Xu, Li Sun, Wei Peng, Shyam Visweswaran, Kayhan Batmanghelich,
- Abstract要約: 本稿では,テキスト情報によって誘導される高品質な3次元肺CT画像を作成するための革新的な手法を提案する。
現在の最先端のアプローチは、低解像度の出力に限られており、放射線学レポートの豊富な情報を不活用している。
- 参考スコア(独自算出の注目度): 19.70945853563019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces an innovative methodology for producing high-quality 3D lung CT images guided by textual information. While diffusion-based generative models are increasingly used in medical imaging, current state-of-the-art approaches are limited to low-resolution outputs and underutilize radiology reports' abundant information. The radiology reports can enhance the generation process by providing additional guidance and offering fine-grained control over the synthesis of images. Nevertheless, expanding text-guided generation to high-resolution 3D images poses significant memory and anatomical detail-preserving challenges. Addressing the memory issue, we introduce a hierarchical scheme that uses a modified UNet architecture. We start by synthesizing low-resolution images conditioned on the text, serving as a foundation for subsequent generators for complete volumetric data. To ensure the anatomical plausibility of the generated samples, we provide further guidance by generating vascular, airway, and lobular segmentation masks in conjunction with the CT images. The model demonstrates the capability to use textual input and segmentation tasks to generate synthesized images. The results of comparative assessments indicate that our approach exhibits superior performance compared to the most advanced models based on GAN and diffusion techniques, especially in accurately retaining crucial anatomical features such as fissure lines, airways, and vascular structures. This innovation introduces novel possibilities. This study focuses on two main objectives: (1) the development of a method for creating images based on textual prompts and anatomical components, and (2) the capability to generate new images conditioning on anatomical elements. The advancements in image generation can be applied to enhance numerous downstream tasks.
- Abstract(参考訳): 本稿では,テキスト情報によって誘導される高品質な3次元肺CT画像を作成するための革新的な手法を提案する。
拡散に基づく生成モデルが医療画像にますます使われている一方で、現在の最先端のアプローチは低解像度の出力に限られており、放射線学レポートの豊富な情報の利用が不十分である。
放射線学報告は、追加のガイダンスを提供し、画像合成のきめ細かい制御を提供することにより、生成プロセスを強化することができる。
それでも、高解像度の3D画像へのテキスト誘導生成の拡大は、重要な記憶と解剖学的詳細保存の課題を引き起こす。
メモリ問題に対処するため,UNetアーキテクチャを改良した階層型スキームを導入する。
まずテキストに条件付けされた低解像度画像の合成から始め、全容積データのための後続のジェネレータの基盤として機能する。
生成した試料の解剖学的有用性を確保するため,CT画像とともに血管,気道,小葉のセグメンテーションマスクを生成することにより,さらなるガイダンスを提供する。
このモデルは、テキスト入力とセグメンテーションタスクを使用して合成画像を生成する能力を示す。
比較評価の結果,本手法はGANおよび拡散法に基づく最も先進的なモデルと比較して優れた性能を示し,特に断線,気道,血管構造などの重要な解剖学的特徴を正確に保持できることが示唆された。
この革新は新たな可能性をもたらす。
本研究は,(1)テキスト・プロンプトと解剖学的要素に基づく画像生成手法の開発,(2)解剖学的要素に基づく新しい画像生成能力の2つの目的に焦点をあてる。
画像生成の進歩は、多くの下流タスクを強化するために応用できる。
関連論文リスト
- Deep Generative Models Unveil Patterns in Medical Images Through Vision-Language Conditioning [3.4299097748670255]
深部生成モデルでは、データセットのサイズと品質を向上することにより、医療画像解析が大幅に進歩している。
画像合成プロセスの指針として,臨床データとセグメンテーションマスクを組み合わせることによって,ハイブリッド条件による生成構造を用いる。
我々のアプローチは、画像と臨床情報の視覚的相関が低いため、従来の医療報告誘導合成よりも困難であり、課題である。
論文 参考訳(メタデータ) (2024-10-17T17:48:36Z) - Part-aware Shape Generation with Latent 3D Diffusion of Neural Voxel Fields [50.12118098874321]
ニューラルボクセル場に対する潜在3次元拡散過程を導入し,高分解能で生成を可能にする。
部分符号を神経ボクセル場に統合し、正確な部分分解を導出するために、部分認識形状復号器を導入する。
その結果,既存の最先端手法よりも優れた部品認識形状生成において,提案手法の優れた生成能力を示した。
論文 参考訳(メタデータ) (2024-05-02T04:31:17Z) - Vision-Language Synthetic Data Enhances Echocardiography Downstream Tasks [4.1942958779358674]
本稿では,近年の視覚言語モデルを用いて,多彩でリアルな人工心エコー画像データを作成する。
合成データに含まれるリッチな文脈情報は、下流タスクの精度と解釈可能性を高める可能性があることを示す。
論文 参考訳(メタデータ) (2024-03-28T23:26:45Z) - GuideGen: A Text-Guided Framework for Full-torso Anatomy and CT Volume Generation [1.138481191622247]
GuideGenは、フリーフォームのテキストプロンプトに基づいて、胸部から骨盤まで、解剖学的マスクとそれに対応するCTボリュームを生成する制御可能なフレームワークである。
提案手法は,リアルなフルトルソ解剖を作成するためのテキスト条件セマンティックシンセサイザー,コントラストを意識した様々なコントラストレベルの詳細な特徴抽出用オートエンコーダ,CT画像,解剖学的セマンティクス,入力プロンプト間のアライメントを保証する潜在特徴生成装置の3つのコアコンポーネントを含む。
論文 参考訳(メタデータ) (2024-03-12T02:09:39Z) - EMIT-Diff: Enhancing Medical Image Segmentation via Text-Guided
Diffusion Model [4.057796755073023]
EMIT-Diffと呼ばれる医用画像合成のための制御可能な拡散モデルを開発した。
近年の拡散確率モデルを利用して、現実的で多様な合成医用画像データを生成する。
提案手法では, 合成試料が医療上の制約に適合することを確実にする。
論文 参考訳(メタデータ) (2023-10-19T16:18:02Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - METGAN: Generative Tumour Inpainting and Modality Synthesis in Light
Sheet Microscopy [4.872960046536882]
本稿では,実解剖情報を活用し,腫瘍の現実的な画像ラベル対を生成する新しい生成法を提案する。
解剖学的画像とラベルのためのデュアルパス生成器を構築し, 独立して事前学習されたセグメンタによって制約された, サイクル一貫性のある設定で学習する。
生成した画像は,既存の手法に比べて定量的に顕著に改善された。
論文 参考訳(メタデータ) (2021-04-22T11:18:17Z) - Hierarchical Amortized Training for Memory-efficient High Resolution 3D
GAN [52.851990439671475]
本稿では,高解像度な3D画像を生成することができる新しいエンドツーエンドGANアーキテクチャを提案する。
トレーニングと推論の異なる構成を使用することで、この目標を達成する。
3次元胸郭CTと脳MRIの実験により、我々のアプローチは画像生成における最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2020-08-05T02:33:04Z) - Pathological Retinal Region Segmentation From OCT Images Using Geometric
Relation Based Augmentation [84.7571086566595]
本稿では,幾何学と形状の内在的関係を共同で符号化することで,従来のGANベースの医用画像合成法よりも優れた手法を提案する。
提案手法は,取得手順の異なる画像を有する公開RETOUCHデータセット上で,最先端のセグメンテーション手法より優れている。
論文 参考訳(メタデータ) (2020-03-31T11:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。