論文の概要: A foundation model utilizing chest CT volumes and radiology reports for supervised-level zero-shot detection of abnormalities
- arxiv url: http://arxiv.org/abs/2403.17834v1
- Date: Tue, 26 Mar 2024 16:19:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 14:37:40.645532
- Title: A foundation model utilizing chest CT volumes and radiology reports for supervised-level zero-shot detection of abnormalities
- Title(参考訳): 胸部CTボリュームと放射線検査による異常診断の基礎的検討
- Authors: Ibrahim Ethem Hamamci, Sezgin Er, Furkan Almas, Ayse Gulnihan Simsek, Sevval Nil Esirgun, Irem Dogan, Muhammed Furkan Dasdelen, Bastian Wittmann, Enis Simsar, Mehmet Simsar, Emine Bensu Erdemir, Abdullah Alanbay, Anjany Sekuboyina, Berkan Lafci, Mehmet K. Ozdemir, Bjoern Menze,
- Abstract要約: 3D医療画像における計算研究における大きな課題は、包括的なデータセットの欠如である。
CT-RATEは、画像とテキストレポートを組み合わせた最初の3D医療画像データセットである。
我々はCTに焦点をあてたコントラスト言語画像事前学習フレームワークであるCT-CLIPを開発した。
- 参考スコア(独自算出の注目度): 1.8953268281326607
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A major challenge in computational research in 3D medical imaging is the lack of comprehensive datasets. Addressing this issue, our study introduces CT-RATE, the first 3D medical imaging dataset that pairs images with textual reports. CT-RATE consists of 25,692 non-contrast chest CT volumes, expanded to 50,188 through various reconstructions, from 21,304 unique patients, along with corresponding radiology text reports. Leveraging CT-RATE, we developed CT-CLIP, a CT-focused contrastive language-image pre-training framework. As a versatile, self-supervised model, CT-CLIP is designed for broad application and does not require task-specific training. Remarkably, CT-CLIP outperforms state-of-the-art, fully supervised methods in multi-abnormality detection across all key metrics, thus eliminating the need for manual annotation. We also demonstrate its utility in case retrieval, whether using imagery or textual queries, thereby advancing knowledge dissemination. The open-source release of CT-RATE and CT-CLIP marks a significant advancement in medical AI, enhancing 3D imaging analysis and fostering innovation in healthcare.
- Abstract(参考訳): 3D医療画像における計算研究における大きな課題は、包括的なデータセットの欠如である。
この問題に対処するため,CT-RATEは,画像とテキストレポートを組み合わせた最初の3次元医用画像データセットである。
CT-RATEは25,692個の非造影胸部CT巻からなり、21,304名のユニークな患者から50,188名に拡張された。
我々はCT-RATEを活用し,CTに焦点をあてたコントラスト言語画像事前学習フレームワークであるCT-CLIPを開発した。
汎用的な自己教師型モデルとして、CT-CLIPは幅広い応用のために設計されており、タスク固有の訓練を必要としない。
注目すべきなのは、CT-CLIPは、すべての主要なメトリクスの多異常検出において、最先端で完全に教師されたメソッドよりも優れており、手動のアノテーションは不要であることだ。
また,画像やテキストクエリを用いても,ケース検索においてその有用性を実証し,知識の普及を促進させる。
CT-RATEとCT-CLIPのオープンソースリリースは、医療AIの大幅な進歩と、3Dイメージング分析の強化、医療におけるイノベーションの促進を象徴している。
関連論文リスト
- 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Bootstrapping Chest CT Image Understanding by Distilling Knowledge from X-ray Expert Models [17.75505740079875]
胸部CT画像における言語利用の可能性について検討した。
胸部CT画像の理解を胸部関連診断知識を, 広く訓練された2次元X線専門家モデルから抽出し, 胸部CT画像の理解をブートストラップした。
胸部CT画像と放射線検査で12,000対以上の画像でモデルを訓練した。
論文 参考訳(メタデータ) (2024-04-07T12:17:40Z) - CT2Rep: Automated Radiology Report Generation for 3D Medical Imaging [0.20754235913398283]
胸部CTを対象とする3次元医用画像のラジオグラフィーレポート作成法について紹介する。
比較手法が存在しないことから,医用画像における高度な3次元視覚エンコーダを用いたベースラインを構築し,本手法の有効性を実証する。
我々は,CT2Repをクロスアテンションベースのマルチモーダル融合モジュールと階層メモリで拡張し,縦型マルチモーダルデータの取り込みを可能にした。
論文 参考訳(メタデータ) (2024-03-11T15:17:45Z) - Multi-View Vertebra Localization and Identification from CT Images [57.56509107412658]
我々は,CT画像からの多視点椎体局在と同定を提案する。
本研究では,3次元問題を異なる視点における2次元局所化および識別タスクに変換する。
本手法は,多視点グローバル情報を自然に学習することができる。
論文 参考訳(メタデータ) (2023-07-24T14:43:07Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Self-supervised 3D anatomy segmentation using self-distilled masked
image transformer (SMIT) [2.7298989068857487]
自己教師型学習は、畳み込みネットワークを用いた医用画像のセグメンテーションに成功している。
我々は、我々のアプローチがより正確で、他のプリテキストタスクよりも微調整データセットを少なくする必要があることを示した。
論文 参考訳(メタデータ) (2022-05-20T17:55:14Z) - Fed-Sim: Federated Simulation for Medical Imaging [131.56325440976207]
本稿では、2つの学習可能なニューラルモジュールからなる物理駆動型生成手法を提案する。
データ合成フレームワークは、複数のデータセットの下流セグメンテーション性能を改善する。
論文 参考訳(メタデータ) (2020-09-01T19:17:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。