論文の概要: CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios
- arxiv url: http://arxiv.org/abs/2404.15272v2
- Date: Fri, 26 Apr 2024 16:50:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 12:15:51.761267
- Title: CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios
- Title(参考訳): CT-GLIP:3Dグラウンドド言語--CTスキャンによる事前訓練と全身性シナリオに対する放射線検査報告
- Authors: Jingyang Lin, Yingda Xia, Jianpeng Zhang, Ke Yan, Le Lu, Jiebo Luo, Ling Zhang,
- Abstract要約: 我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
- 参考スコア(独自算出の注目度): 53.94122089629544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical Vision-Language Pretraining (Med-VLP) establishes a connection between visual content from medical images and the relevant textual descriptions. Existing Med-VLP methods primarily focus on 2D images depicting a single body part, notably chest X-rays. In this paper, we extend the scope of Med-VLP to encompass 3D images, specifically targeting full-body scenarios, by using a multimodal dataset of CT images and reports. Compared with the 2D counterpart, 3D VLP is required to effectively capture essential semantics from significantly sparser representation in 3D imaging. In this paper, we introduce CT-GLIP (Grounded Language-Image Pretraining with CT scans), a novel method that constructs organ-level image-text pairs to enhance multimodal contrastive learning, aligning grounded visual features with precise diagnostic text. Additionally, we developed an abnormality dictionary to augment contrastive learning with diverse contrastive pairs. Our method, trained on a multimodal CT dataset comprising 44,011 organ-level vision-text pairs from 17,702 patients across 104 organs, demonstrates it can identify organs and abnormalities in a zero-shot manner using natural languages. The performance of CT-GLIP is validated on a separate test set of 1,130 patients, focusing on the 16 most frequent abnormalities across 7 organs. The experimental results show our model's superior performance over the standard CLIP framework across zero-shot and fine-tuning scenarios, using both CNN and ViT architectures.
- Abstract(参考訳): Medical Vision-Language Pretraining (Med-VLP)は、医用画像からの視覚コンテンツと関連するテキスト記述との関連性を確立する。
既存のMed-VLP法は主に1つの身体部分、特に胸部X線を描いた2D画像に焦点を当てている。
本稿では,Med-VLPの範囲を,CT画像とレポートのマルチモーダルデータセットを用いて,特に全身シナリオを対象とする3次元画像に拡張する。
2Dと比較すると、3D VLPは3D画像において非常にスペーサー表現から重要な意味を効果的に捉えるのに必要である。
本稿では,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を提案する。
さらに,多種多様なコントラッシブペアによるコントラスト学習を増強する異常辞書を開発した。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
CT-GLIPの成績は,7臓器で最も頻度の高い16症例を対象に,1,130例の別検体で検証した。
実験の結果、CNNとViTアーキテクチャの両方を用いて、ゼロショットおよび微調整シナリオにおける標準CLIPフレームワークよりも優れた性能を示した。
関連論文リスト
- 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - Bootstrapping Chest CT Image Understanding by Distilling Knowledge from X-ray Expert Models [17.75505740079875]
胸部CT画像における言語利用の可能性について検討した。
胸部CT画像の理解を胸部関連診断知識を, 広く訓練された2次元X線専門家モデルから抽出し, 胸部CT画像の理解をブートストラップした。
胸部CT画像と放射線検査で12,000対以上の画像でモデルを訓練した。
論文 参考訳(メタデータ) (2024-04-07T12:17:40Z) - Developing Generalist Foundation Models from a Multimodal Dataset for 3D Computed Tomography [1.8424705673580284]
我々は3次元医用画像と対応するテキストレポートとをマッチングする最初のデータセットであるCT-RATEを紹介する。
我々はCTに焦点を当てたコントラスト言語画像事前学習フレームワークであるCT-CLIPを開発した。
我々は3次元胸部CTボリュームのための視覚言語基礎チャットモデルであるCT-CHATを作成する。
論文 参考訳(メタデータ) (2024-03-26T16:19:56Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Multi-View Vertebra Localization and Identification from CT Images [57.56509107412658]
我々は,CT画像からの多視点椎体局在と同定を提案する。
本研究では,3次元問題を異なる視点における2次元局所化および識別タスクに変換する。
本手法は,多視点グローバル情報を自然に学習することができる。
論文 参考訳(メタデータ) (2023-07-24T14:43:07Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Generative Text-Guided 3D Vision-Language Pretraining for Unified
Medical Image Segmentation [37.93699188912036]
統一医用画像(GTGM)のための生成テキストガイド型3Dビジョンランゲージ前処理について紹介する。
GTGMは3次元医用画像から医用テキストを生成する。
付加的な3次元医用画像パッチ間の一貫した視覚的表現を育むために、負のフリーコントラスト学習目標戦略を導入する。
論文 参考訳(メタデータ) (2023-06-07T22:20:51Z) - Self-supervised 3D anatomy segmentation using self-distilled masked
image transformer (SMIT) [2.7298989068857487]
自己教師型学習は、畳み込みネットワークを用いた医用画像のセグメンテーションに成功している。
我々は、我々のアプローチがより正確で、他のプリテキストタスクよりも微調整データセットを少なくする必要があることを示した。
論文 参考訳(メタデータ) (2022-05-20T17:55:14Z) - 3D Probabilistic Segmentation and Volumetry from 2D projection images [10.32519161805588]
X線撮影は迅速で安価で、最前線のケアアセスメントや術中リアルタイムイメージングに有用である。
プロジェクティブな情報損失に悩まされており、多くの診断バイオマーカーがベースとなっている重要な情報を欠いている。
本稿では,2次元画像モダリティから3次元容積像を再構成する確率的手法について検討する。
論文 参考訳(メタデータ) (2020-06-23T08:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。