Fugu-MT 論文翻訳(概要): GenerateCT: Text-Conditional Generation of 3D Chest CT Volumes

論文の概要: GenerateCT: Text-Conditional Generation of 3D Chest CT Volumes

arxiv url: http://arxiv.org/abs/2305.16037v4
Date: Mon, 11 Mar 2024 14:37:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 17:29:27.146649
Title: GenerateCT: Text-Conditional Generation of 3D Chest CT Volumes
Title（参考訳）: GenerateCT:3次元胸部CTボリュームのテキストコンディショナル生成
Authors: Ibrahim Ethem Hamamci, Sezgin Er, Anjany Sekuboyina, Enis Simsar, Alperen Tezcan, Ayse Gulnihan Simsek, Sevval Nil Esirgun, Furkan Almas, Irem Dogan, Muhammed Furkan Dasdelen, Chinmay Prabhakar, Hadrien Reynaud, Sarthak Pati, Christian Bluethgen, Mehmet Kemal Ozdemir, Bjoern Menze
Abstract要約: GenerateCTは、フリーフォームの医療用テキストプロンプトに条件付けされた3D医療用画像を生成するための最初のアプローチである。マルチ異常分類タスクにおいてGenerateCTの有用性を評価する。 GenerateCTは、任意のサイズの合成トレーニングデータセットのスケーリングを可能にする。
参考スコア（独自算出の注目度）: 2.456782772294487
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: GenerateCT, the first approach to generating 3D medical imaging conditioned on free-form medical text prompts, incorporates a text encoder and three key components: a novel causal vision transformer for encoding 3D CT volumes, a text-image transformer for aligning CT and text tokens, and a text-conditional super-resolution diffusion model. Given the absence of directly comparable methods in 3D medical imaging, we established baselines with cutting-edge methods to demonstrate our method's effectiveness. GenerateCT significantly outperforms these methods across all key metrics. Importantly, we explored GenerateCT's clinical applications by evaluating its utility in a multi-abnormality classification task. First, we established a baseline by training a multi-abnormality classifier on our real dataset. To further assess the model's generalization to external datasets and its performance with unseen prompts in a zero-shot scenario, we employed an external dataset to train the classifier, setting an additional benchmark. We conducted two experiments in which we doubled the training datasets by synthesizing an equal number of volumes for each set using GenerateCT. The first experiment demonstrated an 11% improvement in the AP score when training the classifier jointly on real and generated volumes. The second experiment showed a 7% improvement when training on both real and generated volumes based on unseen prompts. Moreover, GenerateCT enables the scaling of synthetic training datasets to arbitrary sizes. As an example, we generated 100,000 3D CT volumes, fivefold the number in our real dataset, and trained the classifier exclusively on these synthetic volumes. Impressively, this classifier surpassed the performance of the one trained on all available real data by a margin of 8%. Lastly, domain experts evaluated the generated volumes, confirming a high degree of alignment with the text prompt.
Abstract（参考訳）: フリーフォームの医療用テキストプロンプトで条件付き3D医療用画像を生成する最初のアプローチであるGenerateCTは、テキストエンコーダと、3DCTボリュームを符号化する新しい因果視覚変換器、CTとテキストトークンを整列するテキストイメージ変換器、およびテキスト条件の超解像拡散モデルを含む3つの重要なコンポーネントを組み込んでいる。 3次元医用画像における直接比較法が存在しないことから,本手法の有効性を示すため,最先端法を用いたベースラインを構築した。 GenerateCTは、すべての主要なメトリクスでこれらのメソッドを著しく上回る。そこで我々はGenerateCTの臨床的応用を多義性分類タスクで評価することで検討した。まず,実データセット上でのマルチ異常度分類器のトレーニングにより,ベースラインを確立した。モデルの外部データセットへの一般化と、ゼロショットシナリオにおける未認識のプロンプトによるパフォーマンスをさらに評価するために、外部データセットを使用して分類器をトレーニングし、追加のベンチマークを設定した。我々は,generatectを用いて各集合のボリュームを等数に合成し,トレーニングデータセットを2倍にする実験を行った。最初の実験では、実数と生成量で分類器を共同で訓練する際、APスコアが11%改善した。第2の実験では、目に見えないプロンプトに基づいた実数と生成量のトレーニングでは7%の改善が見られた。さらに、GenerateCTは、任意のサイズの合成トレーニングデータセットのスケーリングを可能にする。例えば、実際のデータセットの5倍の10万の3dctボリュームを生成し、これらの合成ボリューム専用の分類器をトレーニングしました。驚くべきことに、この分類器は、利用可能なすべての実データでトレーニングされたもののパフォーマンスを8%上回った。最後に、ドメインの専門家は生成されたボリュームを評価し、テキストプロンプトと高い整合性を確認した。

関連論文リスト

Recurrent Visual Feature Extraction and Stereo Attentions for CT Report Generation [18.113659670915474]
本稿では,大規模言語モデル (LLM) に基づくCTRG法を提案する。具体的には、視覚変換器を用いて、各スライスをCTボリュームで繰り返し処理し、異なる視点から符号化したスライスに注意を払って重要な視覚情報を得る。ベンチマークM3D-Capデータセットの実験結果とさらなる解析により,本手法が強いベースラインモデルより優れていることが示された。
論文参考訳（メタデータ） (2025-06-24T14:29:06Z)
Text-to-CT Generation via 3D Latent Diffusion Model with Contrastive Vision-Language Pretraining [0.8714814768600079]
本稿では,3次元コントラッシブな視覚-言語事前学習方式と潜在拡散モデルを組み合わせたテキスト-CT生成のための新しいアーキテクチャを提案する。本手法は,テキストから臨床的に有意なCTボリュームを合成するための,スケーラブルで制御可能なソリューションを提供する。
論文参考訳（メタデータ） (2025-05-31T16:41:55Z)
CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文参考訳（メタデータ） (2024-04-23T17:59:01Z)
Towards a Comprehensive, Efficient and Promptable Anatomic Structure Segmentation Model using 3D Whole-body CT Scans [23.573958232965104]
Segment Any Model (SAM) は、自然画像のセグメンテーションに強い一般化能力を示す。我々はCT-SAM3Dという全身CTセグメント化のための包括的でスケーラブルな3次元SAMモデルを提案する。 CT-SAM3Dは107体の解剖を含む1204個のCTスキャンによって訓練されている。
論文参考訳（メタデータ） (2024-03-22T09:40:52Z)
GuideGen: A Text-Guided Framework for Full-torso Anatomy and CT Volume Generation [1.138481191622247]
GuideGenは、フリーフォームのテキストプロンプトに基づいて、胸部から骨盤まで、解剖学的マスクとそれに対応するCTボリュームを生成する制御可能なフレームワークである。提案手法は,リアルなフルトルソ解剖を作成するためのテキスト条件セマンティックシンセサイザー,コントラストを意識した様々なコントラストレベルの詳細な特徴抽出用オートエンコーダ,CT画像,解剖学的セマンティクス,入力プロンプト間のアライメントを保証する潜在特徴生成装置の3つのコアコンポーネントを含む。
論文参考訳（メタデータ） (2024-03-12T02:09:39Z)
Brain Tumor Radiogenomic Classification [1.8276368987462532]
2次分類によるグリオ芽腫のMGMTバイオマーカー状態の予測を目的としたRSNA-MICCAI脳腫瘍ラジオゲノミクス分類の試みデータセットはトレーニングセット、トレーニング中に使用された検証セット、最終評価時にのみ使用されるテストの3つの主要なコホートに分割される。
論文参考訳（メタデータ） (2024-01-11T10:30:09Z)
Contrastive Transformer Learning with Proximity Data Generation for Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2023-11-15T16:26:49Z)
Two-Stream Graph Convolutional Network for Intra-oral Scanner Image Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。 TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文参考訳（メタデータ） (2022-04-19T10:41:09Z)
Using the Order of Tomographic Slices as a Prior for Neural Networks Pre-Training [1.1470070927586016]
ボリュームの代わりにスライス上でSortingLossを事前学習する手法を提案する。ボリュームではなくスライスで事前トレーニングを行うので、スライスのスパースセットでモデルを微調整することができる。提案手法はSimCLRと同等に動作し、2倍高速に動作し、1.5倍少ないメモリを必要とすることを示す。
論文参考訳（メタデータ） (2022-03-17T14:58:15Z)
Simulation-Driven Training of Vision Transformers Enabling Metal Segmentation in X-Ray Images [6.416928579907334]
本研究は,CTデータセットとCADインプラントを組み合わせたシミュレーションX線画像を生成することを提案する。 CBCT射影における金属セグメンテーションは、金属アーティファクト回避および還元アルゴリズムの前提条件となる。本研究は,CADモデルに基づくデータ生成の柔軟性が向上し,臨床データサンプリングとラベル付けの不足を克服する手段となる可能性が示唆された。
論文参考訳（メタデータ） (2022-03-17T09:58:58Z)
Feature transforms for image data augmentation [74.12025519234153]
画像分類において、多くの拡張アプローチは単純な画像操作アルゴリズムを利用する。本研究では,14種類の拡張アプローチを組み合わせて生成した画像を追加することで,データレベルでのアンサンブルを構築する。事前トレーニングされたResNet50ネットワークは、各拡張メソッドから派生した画像を含むトレーニングセットに基づいて微調整される。
論文参考訳（メタデータ） (2022-01-24T14:12:29Z)
A hybrid deep learning framework for Covid-19 detection via 3D Chest CT Images [5.3708513698154015]
本稿では,畳み込みニューラルネットワークとトランスフォーマーを組み合わせた3D胸部CT画像によるCOVID-19検出のためのハイブリッドディープラーニングフレームワークCTNetを提案する。これは、CTスキャンから十分な特徴を抽出するためにSEが注目するCNN特徴抽出モジュールと、3D CTスキャンの識別特徴をモデル化するトランスフォーマーモデルで構成されている。
論文参考訳（メタデータ） (2021-07-08T15:37:46Z)
TSGCNet: Discriminative Geometric Feature Learning with Two-Stream GraphConvolutional Network for 3D Dental Model Segmentation [141.2690520327948]
2流グラフ畳み込みネットワーク(TSGCNet)を提案し、異なる幾何学的特性から多視点情報を学ぶ。 3次元口腔内スキャナーで得られた歯科モデルのリアルタイムデータセットを用いてTSGCNetの評価を行った。
論文参考訳（メタデータ） (2020-12-26T08:02:56Z)
Fed-Sim: Federated Simulation for Medical Imaging [131.56325440976207]
本稿では、2つの学習可能なニューラルモジュールからなる物理駆動型生成手法を提案する。データ合成フレームワークは、複数のデータセットの下流セグメンテーション性能を改善する。
論文参考訳（メタデータ） (2020-09-01T19:17:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。