Fugu-MT 論文翻訳(概要): CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios

論文の概要: CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios

arxiv url: http://arxiv.org/abs/2404.15272v2
Date: Fri, 26 Apr 2024 16:50:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-29 12:15:51.761267
Title: CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios
Title（参考訳）: CT-GLIP:3Dグラウンドド言語--CTスキャンによる事前訓練と全身性シナリオに対する放射線検査報告
Authors: Jingyang Lin, Yingda Xia, Jianpeng Zhang, Ke Yan, Le Lu, Jiebo Luo, Ling Zhang,
Abstract要約: 我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
参考スコア（独自算出の注目度）: 53.94122089629544
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Medical Vision-Language Pretraining (Med-VLP) establishes a connection between visual content from medical images and the relevant textual descriptions. Existing Med-VLP methods primarily focus on 2D images depicting a single body part, notably chest X-rays. In this paper, we extend the scope of Med-VLP to encompass 3D images, specifically targeting full-body scenarios, by using a multimodal dataset of CT images and reports. Compared with the 2D counterpart, 3D VLP is required to effectively capture essential semantics from significantly sparser representation in 3D imaging. In this paper, we introduce CT-GLIP (Grounded Language-Image Pretraining with CT scans), a novel method that constructs organ-level image-text pairs to enhance multimodal contrastive learning, aligning grounded visual features with precise diagnostic text. Additionally, we developed an abnormality dictionary to augment contrastive learning with diverse contrastive pairs. Our method, trained on a multimodal CT dataset comprising 44,011 organ-level vision-text pairs from 17,702 patients across 104 organs, demonstrates it can identify organs and abnormalities in a zero-shot manner using natural languages. The performance of CT-GLIP is validated on a separate test set of 1,130 patients, focusing on the 16 most frequent abnormalities across 7 organs. The experimental results show our model's superior performance over the standard CLIP framework across zero-shot and fine-tuning scenarios, using both CNN and ViT architectures.
Abstract（参考訳）: Medical Vision-Language Pretraining (Med-VLP)は、医用画像からの視覚コンテンツと関連するテキスト記述との関連性を確立する。既存のMed-VLP法は主に1つの身体部分、特に胸部X線を描いた2D画像に焦点を当てている。本稿では,Med-VLPの範囲を,CT画像とレポートのマルチモーダルデータセットを用いて,特に全身シナリオを対象とする3次元画像に拡張する。 2Dと比較すると、3D VLPは3D画像において非常にスペーサー表現から重要な意味を効果的に捉えるのに必要である。本稿では,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を提案する。さらに,多種多様なコントラッシブペアによるコントラスト学習を増強する異常辞書を開発した。本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。 CT-GLIPの成績は,7臓器で最も頻度の高い16症例を対象に,1,130例の別検体で検証した。実験の結果、CNNとViTアーキテクチャの両方を用いて、ゼロショットおよび微調整シナリオにおける標準CLIPフレームワークよりも優れた性能を示した。

関連論文リスト

Recurrent Visual Feature Extraction and Stereo Attentions for CT Report Generation [18.113659670915474]
本稿では,大規模言語モデル (LLM) に基づくCTRG法を提案する。具体的には、視覚変換器を用いて、各スライスをCTボリュームで繰り返し処理し、異なる視点から符号化したスライスに注意を払って重要な視覚情報を得る。ベンチマークM3D-Capデータセットの実験結果とさらなる解析により,本手法が強いベースラインモデルより優れていることが示された。
論文参考訳（メタデータ） (2025-06-24T14:29:06Z)
Large-scale and Fine-grained Vision-language Pre-training for Enhanced CT Image Understanding [17.783231335173486]
解剖学的CT画像解釈のための細粒度視覚言語モデル(fVLM)を提案する。しかし、微粒なアライメントは、かなり偽陰性な課題に直面している。今回,69,086例のCT画像と報告データをもとに,これまでで最大のCTデータセットを収集した。
論文参考訳（メタデータ） (2025-01-24T14:50:48Z)
3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2024-09-28T12:31:07Z)
Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文参考訳（メタデータ） (2024-09-13T10:19:10Z)
Bootstrapping Chest CT Image Understanding by Distilling Knowledge from X-ray Expert Models [17.75505740079875]
胸部CT画像における言語利用の可能性について検討した。胸部CT画像の理解を胸部関連診断知識を, 広く訓練された2次元X線専門家モデルから抽出し, 胸部CT画像の理解をブートストラップした。胸部CT画像と放射線検査で12,000対以上の画像でモデルを訓練した。
論文参考訳（メタデータ） (2024-04-07T12:17:40Z)
Developing Generalist Foundation Models from a Multimodal Dataset for 3D Computed Tomography [1.8424705673580284]
我々は3次元医用画像と対応するテキストレポートとをマッチングする最初のデータセットであるCT-RATEを紹介する。我々はCTに焦点を当てたコントラスト言語画像事前学習フレームワークであるCT-CLIPを開発した。我々は3次元胸部CTボリュームのための視覚言語基礎チャットモデルであるCT-CHATを作成する。
論文参考訳（メタデータ） (2024-03-26T16:19:56Z)
T3D: Advancing 3D Medical Vision-Language Pre-training by Learning Multi-View Visual Consistency [32.57915952175522]
3D医療ビジョン言語による事前トレーニングは、大規模で一般公開された3D医療画像レポートデータセットが欠如しているため、まだ探索されていない。このギャップを埋めるために、最初の、そして最大の*public** 3Dボリュームレポートデータセットである*CT-3Dlots**を紹介します。提案する**T3D*フレームワークは,単純なCLIPスタイルのアライメントを超えて,3次元医用画像の理解を促進する。以上の結果から,T3D は既存の vSSL やマルチモーダル手法を一貫して上回り,ゼロショットや微調整能力に優れていた。
論文参考訳（メタデータ） (2023-12-03T23:03:22Z)
Disruptive Autoencoders: Leveraging Low-level features for 3D Medical Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-07-31T17:59:42Z)
Multi-View Vertebra Localization and Identification from CT Images [57.56509107412658]
我々は,CT画像からの多視点椎体局在と同定を提案する。本研究では,3次元問題を異なる視点における2次元局所化および識別タスクに変換する。本手法は,多視点グローバル情報を自然に学習することができる。
論文参考訳（メタデータ） (2023-07-24T14:43:07Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
Generative Text-Guided 3D Vision-Language Pretraining for Unified Medical Image Segmentation [37.93699188912036]
統一医用画像(GTGM)のための生成テキストガイド型3Dビジョンランゲージ前処理について紹介する。 GTGMは3次元医用画像から医用テキストを生成する。付加的な3次元医用画像パッチ間の一貫した視覚的表現を育むために、負のフリーコントラスト学習目標戦略を導入する。
論文参考訳（メタデータ） (2023-06-07T22:20:51Z)
Self-supervised 3D anatomy segmentation using self-distilled masked image transformer (SMIT) [2.7298989068857487]
自己教師型学習は、畳み込みネットワークを用いた医用画像のセグメンテーションに成功している。我々は、我々のアプローチがより正確で、他のプリテキストタスクよりも微調整データセットを少なくする必要があることを示した。
論文参考訳（メタデータ） (2022-05-20T17:55:14Z)
3D Probabilistic Segmentation and Volumetry from 2D projection images [10.32519161805588]
X線撮影は迅速で安価で、最前線のケアアセスメントや術中リアルタイムイメージングに有用である。プロジェクティブな情報損失に悩まされており、多くの診断バイオマーカーがベースとなっている重要な情報を欠いている。本稿では,2次元画像モダリティから3次元容積像を再構成する確率的手法について検討する。
論文参考訳（メタデータ） (2020-06-23T08:00:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。