論文の概要: Developing Generalist Foundation Models from a Multimodal Dataset for 3D Computed Tomography
- arxiv url: http://arxiv.org/abs/2403.17834v2
- Date: Wed, 16 Oct 2024 12:49:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:38:52.749251
- Title: Developing Generalist Foundation Models from a Multimodal Dataset for 3D Computed Tomography
- Title(参考訳): 3次元CTのためのマルチモーダルデータセットを用いた一般基礎モデルの開発
- Authors: Ibrahim Ethem Hamamci, Sezgin Er, Furkan Almas, Ayse Gulnihan Simsek, Sevval Nil Esirgun, Irem Dogan, Muhammed Furkan Dasdelen, Omer Faruk Durugol, Bastian Wittmann, Tamaz Amiranashvili, Enis Simsar, Mehmet Simsar, Emine Bensu Erdemir, Abdullah Alanbay, Anjany Sekuboyina, Berkan Lafci, Christian Bluethgen, Mehmet Kemal Ozdemir, Bjoern Menze,
- Abstract要約: 我々は3次元医用画像と対応するテキストレポートとをマッチングする最初のデータセットであるCT-RATEを紹介する。
我々はCTに焦点を当てたコントラスト言語画像事前学習フレームワークであるCT-CLIPを開発した。
我々は3次元胸部CTボリュームのための視覚言語基礎チャットモデルであるCT-CHATを作成する。
- 参考スコア(独自算出の注目度): 1.8424705673580284
- License:
- Abstract: While computer vision has achieved tremendous success with multimodal encoding and direct textual interaction with images via chat-based large language models, similar advancements in medical imaging AI, particularly in 3D imaging, have been limited due to the scarcity of comprehensive datasets. To address this critical gap, we introduce CT-RATE, the first dataset that pairs 3D medical images with corresponding textual reports. CT-RATE comprises 25,692 non-contrast 3D chest CT scans from 21,304 unique patients. Through various reconstructions, these scans are expanded to 50,188 volumes, totaling over 14.3 million 2D slices. Each scan is accompanied by its corresponding radiology report. Leveraging CT-RATE, we develop CT-CLIP, a CT-focused contrastive language-image pretraining framework designed for broad applications without the need for task-specific training. We demonstrate how CT-CLIP can be used in two tasks: multi-abnormality detection and case retrieval. Remarkably, in multi-abnormality detection, CT-CLIP outperforms state-of-the-art fully supervised models across all key metrics, effectively eliminating the need for manual annotation. In case retrieval, it efficiently retrieves relevant cases using either image or textual queries, thereby enhancing knowledge dissemination. By combining CT-CLIP's vision encoder with a pretrained large language model, we create CT-CHAT, a vision-language foundational chat model for 3D chest CT volumes. Finetuned on over 2.7 million question-answer pairs derived from the CT-RATE dataset, CT-CHAT surpasses other multimodal AI assistants, underscoring the necessity for specialized methods in 3D medical imaging. Collectively, the open-source release of CT-RATE, CT-CLIP, and CT-CHAT not only addresses critical challenges in 3D medical imaging but also lays the groundwork for future innovations in medical AI and improved patient care.
- Abstract(参考訳): コンピュータビジョンは、マルチモーダルエンコーディングとチャットベースの大規模言語モデルによる画像との直接テキストインタラクションで大きな成功を収めてきたが、医療画像AI、特に3Dイメージングにおける同様の進歩は、包括的なデータセットの不足によって制限されている。
この重要なギャップに対処するために,3次元医用画像と対応するテキストレポートとを組み合わせた最初のデータセットであるCT-RATEを導入する。
CT-RATEは21,304例の非造影3D胸部CT25,692例からなる。
様々な再構築によって、これらのスキャンは50,188巻に拡張され、合計で1430万個の2Dスライスがある。
各スキャンには対応する放射線診断レポートが添付されている。
CT-RATEを応用したCT-CLIPは、タスク固有のトレーニングを必要とせず、幅広いアプリケーション向けに設計された、CT中心のコントラスト言語画像事前学習フレームワークである。
マルチ異常検出とケース検索の2つのタスクでCT-CLIPをどのように利用できるかを示す。
注目すべきは、マルチ異常検出において、CT-CLIPはすべての主要なメトリクスで最先端の完全教師付きモデルよりも優れており、手動アノテーションを効果的に排除していることである。
ケース検索では、画像またはテキストの問合せを用いて関連事例を効率よく検索し、知識の普及を促進する。
我々は,CT-CLIPの視覚エンコーダと事前訓練された大言語モデルを組み合わせることで,3次元胸部CTボリュームのためのビジョンベースベースのチャットモデルであるCT-CHATを作成する。
CT-RATEデータセットから得られた270万以上の質問応答対に基づいて、CT-CHATは他のマルチモーダルAIアシスタントを超越し、3D医療画像の特殊な方法の必要性を強調している。
まとめると、CT-RATE、CT-CLIP、CT-CHATのオープンソースリリースは、3D医療画像における重要な課題に対処するだけでなく、将来の医療AIの革新と患者医療の改善の基盤も築き上げている。
関連論文リスト
- 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Bootstrapping Chest CT Image Understanding by Distilling Knowledge from X-ray Expert Models [17.75505740079875]
胸部CT画像における言語利用の可能性について検討した。
胸部CT画像の理解を胸部関連診断知識を, 広く訓練された2次元X線専門家モデルから抽出し, 胸部CT画像の理解をブートストラップした。
胸部CT画像と放射線検査で12,000対以上の画像でモデルを訓練した。
論文 参考訳(メタデータ) (2024-04-07T12:17:40Z) - CT2Rep: Automated Radiology Report Generation for 3D Medical Imaging [0.20754235913398283]
胸部CTを対象とする3次元医用画像のラジオグラフィーレポート作成法について紹介する。
比較手法が存在しないことから,医用画像における高度な3次元視覚エンコーダを用いたベースラインを構築し,本手法の有効性を実証する。
我々は,CT2Repをクロスアテンションベースのマルチモーダル融合モジュールと階層メモリで拡張し,縦型マルチモーダルデータの取り込みを可能にした。
論文 参考訳(メタデータ) (2024-03-11T15:17:45Z) - Multi-View Vertebra Localization and Identification from CT Images [57.56509107412658]
我々は,CT画像からの多視点椎体局在と同定を提案する。
本研究では,3次元問題を異なる視点における2次元局所化および識別タスクに変換する。
本手法は,多視点グローバル情報を自然に学習することができる。
論文 参考訳(メタデータ) (2023-07-24T14:43:07Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Self-supervised 3D anatomy segmentation using self-distilled masked
image transformer (SMIT) [2.7298989068857487]
自己教師型学習は、畳み込みネットワークを用いた医用画像のセグメンテーションに成功している。
我々は、我々のアプローチがより正確で、他のプリテキストタスクよりも微調整データセットを少なくする必要があることを示した。
論文 参考訳(メタデータ) (2022-05-20T17:55:14Z) - Fed-Sim: Federated Simulation for Medical Imaging [131.56325440976207]
本稿では、2つの学習可能なニューラルモジュールからなる物理駆動型生成手法を提案する。
データ合成フレームワークは、複数のデータセットの下流セグメンテーション性能を改善する。
論文 参考訳(メタデータ) (2020-09-01T19:17:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。