論文の概要: GenerateCT: Text-Conditional Generation of 3D Chest CT Volumes
- arxiv url: http://arxiv.org/abs/2305.16037v3
- Date: Sun, 26 Nov 2023 20:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 16:10:09.308428
- Title: GenerateCT: Text-Conditional Generation of 3D Chest CT Volumes
- Title(参考訳): GenerateCT:3次元胸部CTボリュームのテキストコンディショナル生成
- Authors: Ibrahim Ethem Hamamci, Sezgin Er, Enis Simsar, Anjany Sekuboyina,
Chinmay Prabhakar, Alperen Tezcan, Ayse Gulnihan Simsek, Sevval Nil Esirgun,
Furkan Almas, Irem Do\u{g}an, Muhammed Furkan Dasdelen, Hadrien Reynaud,
Sarthak Pati, Christian Bluethgen, Mehmet Kemal Ozdemir, Bjoern Menze
- Abstract要約: 我々は,フリーフォーム医療用テキストプロンプトに条件付CTボリュームを生成する新しい手法であるGenerateCTを紹介した。
GenerateCTは、FIDとFVDの低いスコアで検証された、現実的で高解像度で高忠実な3D胸部CTボリュームを生成することができる。
- 参考スコア(独自算出の注目度): 2.456782772294487
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we introduce GenerateCT, a novel approach for generating CT
volumes conditioned on free-form medical text prompts. GenerateCT includes a
text encoder and three key components: a novel causal vision transformer for
encoding CT volumes, a text-image transformer for aligning CT and text tokens,
and a text-conditional super-resolution diffusion model. GenerateCT can produce
realistic, high-resolution, and high-fidelity 3D chest CT volumes, validated by
low FID and FVD scores. To explore GenerateCT's clinical applications, we
evaluated its utility in a multi-abnormality classification task. First, we
established a baseline by training a multi-abnormality classifier on our real
dataset. To further assess the model's generalization to external datasets and
its performance with unseen prompts in a zero-shot scenario, we employed an
external dataset to train the classifier, setting an additional benchmark. We
conducted two experiments in which we doubled the training datasets by
synthesizing an equal number of volumes for each set using GenerateCT. The
first experiment demonstrated an 11% improvement in the AP score when training
the classifier jointly on real and generated volumes. The second experiment
showed a 7% improvement when training on both real and generated volumes based
on unseen prompts. Moreover, GenerateCT enables the scaling of synthetic
training datasets to arbitrary sizes. As an example, we generated 100,000 CT
volumes, fivefold the number in our real dataset, and trained the classifier
exclusively on these synthetic volumes. Impressively, this classifier surpassed
the performance of the one trained on all available real data by a margin of
8%. Lastly, domain experts evaluated the generated volumes, confirming a high
degree of alignment with the text prompt. Our code and pre-trained models are
available at: https://github.com/ibrahimethemhamamci/GenerateCT
- Abstract(参考訳): 本稿では,フリーフォーム医療用テキストプロンプトに条件付CTボリュームを生成する新しい手法であるGenerateCTを紹介する。
GenerateCTは、CTボリュームを符号化する新しい因果視覚変換器と、CTとテキストトークンを整列するテキストイメージ変換器と、テキスト条件の超解像拡散モデルとを含む3つの重要なコンポーネントを含む。
GenerateCTは、FIDとFVDの低いスコアで検証された、現実的で高解像度で高忠実な3D胸部CTボリュームを生成することができる。
GenerateCTの臨床応用を探求するため,多義性分類タスクにおいて有用性を評価した。
まず,実データセット上でのマルチ異常度分類器のトレーニングにより,ベースラインを確立した。
モデルの外部データセットへの一般化と、ゼロショットシナリオにおける未認識のプロンプトによるパフォーマンスをさらに評価するために、外部データセットを使用して分類器をトレーニングし、追加のベンチマークを設定した。
我々は,generatectを用いて各集合のボリュームを等数に合成し,トレーニングデータセットを2倍にする実験を行った。
最初の実験では、実数と生成量で分類器を共同で訓練する際、APスコアが11%改善した。
第2の実験では、目に見えないプロンプトに基づいた実数と生成量のトレーニングでは7%の改善が見られた。
さらに、GenerateCTは、任意のサイズの合成トレーニングデータセットのスケーリングを可能にする。
例えば、実際のデータセットの5倍の10万のctボリュームを生成し、これらの合成ボリュームのみに分類器をトレーニングしました。
驚くべきことに、この分類器は、利用可能なすべての実データでトレーニングされたもののパフォーマンスを8%上回った。
最後に、ドメインの専門家は生成されたボリュームを評価し、テキストプロンプトと高い整合性を確認した。
私たちのコードと事前トレーニングされたモデルは、https://github.com/ibrahimethemhamamci/GenerateCTで利用可能です。
関連論文リスト
- Brain Tumor Radiogenomic Classification [1.8276368987462532]
2次分類によるグリオ芽腫のMGMTバイオマーカー状態の予測を目的としたRSNA-MICCAI脳腫瘍ラジオゲノミクス分類の試み
データセットはトレーニングセット、トレーニング中に使用された検証セット、最終評価時にのみ使用されるテストの3つの主要なコホートに分割される。
論文 参考訳(メタデータ) (2024-01-11T10:30:09Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Towards Unifying Anatomy Segmentation: Automated Generation of a
Full-body CT Dataset via Knowledge Aggregation and Anatomical Guidelines [113.08940153125616]
我々は533巻のボクセルレベルのラベルを142ドル(約1万2000円)で、全身CTスキャンのデータセットを作成し、解剖学的包括的カバレッジを提供する。
提案手法はラベル集約段階において手作業によるアノテーションに依存しない。
我々はCTデータに142ドルの解剖学的構造を予測できる統一解剖学的セグメンテーションモデルをリリースする。
論文 参考訳(メタデータ) (2023-07-25T09:48:13Z) - 2DeteCT -- A large 2D expandable, trainable, experimental Computed
Tomography dataset for machine learning [1.0266286487433585]
機械学習技術の開発に適した,汎用的でオープンな2次元ファンビームCTデータセットを提供する。
形状, 密度の異なる多種多様な試料をスライス・バイ・スライスでスキャンした。
我々は、オープンソースのデータ処理パイプラインに基づいて、生のプロジェクションデータ、参照再構成、セグメンテーションを提供する。
論文 参考訳(メタデータ) (2023-06-09T14:02:53Z) - Training on Thin Air: Improve Image Classification with Generated Data [28.96941414724037]
Diffusion Inversionは、画像分類のための多種多様な高品質なトレーニングデータを生成するための、シンプルで効果的な方法である。
提案手法は,元のデータ分布を捕捉し,画像を安定拡散の潜在空間に反転させることにより,データカバレッジを確保する。
生成した画像が元のデータセットに取って代わることに成功した3つの重要なコンポーネントを特定します。
論文 参考訳(メタデータ) (2023-05-24T16:33:02Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Using the Order of Tomographic Slices as a Prior for Neural Networks
Pre-Training [1.1470070927586016]
ボリュームの代わりにスライス上でSortingLossを事前学習する手法を提案する。
ボリュームではなくスライスで事前トレーニングを行うので、スライスのスパースセットでモデルを微調整することができる。
提案手法はSimCLRと同等に動作し、2倍高速に動作し、1.5倍少ないメモリを必要とすることを示す。
論文 参考訳(メタデータ) (2022-03-17T14:58:15Z) - Toward Generating Synthetic CT Volumes using a 3D-Conditional Generative
Adversarial Network [1.5846249630722484]
雑音および/または画素近似からボクセル内の3次元CTスキャンを生成することができる条件付き生成逆ネットワーク(cGAN)アーキテクチャ。
条件付きcGANは3次元CTボリュームを生成するための抽出可能なアプローチであると考えている。
論文 参考訳(メタデータ) (2021-04-02T12:25:37Z) - TSGCNet: Discriminative Geometric Feature Learning with Two-Stream
GraphConvolutional Network for 3D Dental Model Segmentation [141.2690520327948]
2流グラフ畳み込みネットワーク(TSGCNet)を提案し、異なる幾何学的特性から多視点情報を学ぶ。
3次元口腔内スキャナーで得られた歯科モデルのリアルタイムデータセットを用いてTSGCNetの評価を行った。
論文 参考訳(メタデータ) (2020-12-26T08:02:56Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。