論文の概要: Learning to Read Where to Look: Disease-Aware Vision-Language Pretraining for 3D CT
- arxiv url: http://arxiv.org/abs/2603.02026v1
- Date: Mon, 02 Mar 2026 16:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.962129
- Title: Learning to Read Where to Look: Disease-Aware Vision-Language Pretraining for 3D CT
- Title(参考訳): 視力に配慮した3DCTの事前学習
- Authors: Simon Ging, Philipp Arnold, Sebastian Walter, Hani Alnahas, Hannah Bast, Elmar Kotter, Jiancheng Yang, Behzad Bozorgtabar, Thomas Brox,
- Abstract要約: 1つの病院で収集した 98k レポートボリューム対 (50k 患者) の 3 次元CT 画像言語モデルを訓練した。
CT-RATEでは,最先端のテキスト画像検索と競合疾患分類を実現している。
- 参考スコア(独自算出の注目度): 26.700589589723887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent 3D CT vision-language models align volumes with reports via contrastive pretraining, but typically rely on limited public data and provide only coarse global supervision. We train a 3D CT vision-language model on 98k report-volume pairs (50k patients) collected at a single hospital, combined with public datasets, using SigLIP-style contrastive pretraining together with prompt-based disease supervision in the shared vision-text embedding space. On CT-RATE, our model achieves state-of-the-art text-to-image retrieval (R@10 31.5 vs. 22.2) and competitive disease classification (AUC 83.8 vs. 83.8), with consistent results on Rad-ChestCT (AUC 77.0 vs. 77.3). We further observe that radiologists routinely reference specific images within their reports (e.g., ``series X, image Y''), linking textual descriptions to precise axial locations. We automatically mine 262k such snippet-slice pairs and introduce the task of intra-scan snippet localization -- predicting the axial depth referred to by a text snippet -- reducing mean absolute error to 36.3 mm at 12 mm feature resolution, compared with 67.0 mm for the best baseline. Adding this localization objective leaves retrieval and classification broadly unchanged within confidence bounds, yielding a single unified model for retrieval, classification, and intra-scan grounding.
- Abstract(参考訳): 最近の3次元CTビジョン言語モデルは、対照的な事前訓練によるレポートとボリュームを一致させるが、一般的には限られた公開データに依存し、粗いグローバル監視のみを提供する。
我々は、SigLIPスタイルのコントラストプレトレーニングと、共有視覚テキスト埋め込み空間における即時的な疾患管理を併用して、単一の病院で収集した98kレポートボリュームペア(50k患者)に3次元CT画像言語モデルをトレーニングする。
CT-RATEでは,Rad-ChestCT (AUC 77.0 vs. 77.3) と競合する疾患分類 (AUC 83.8 vs. 83.8) を用いて,最先端のテキスト画像検索 (R@10 31.5 vs. 22.2) と競合疾患分類 (AUC 83.8 vs. 83.8) を実現している。
さらに, 放射線学者は, 報告中の特定の画像(例: ``series X, image Y''')を定期的に参照し, テキスト記述と正確な軸方向の位置を関連づけている。
このスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスクリットスニペットスニペットスニペットスニペットスニペットスニペットスニペットスライスラインスニペットスニペットスニペットスニペットスラインスニペットスニペットスニペットスニペットスニペットスニペットスラインスラインスニペットスニペットスラインスニペットスラインスニペットスラインスラインスラインスラインス(S) 67. 67.0mm, 67.3mm,12mm,
このローカライゼーション対象の検索と分類は、信頼境界内で大きく変化せず、検索、分類、およびスキャン内接地のための単一の統一モデルを生成する。
関連論文リスト
- Scaling Down to Scale Up: Towards Operationally-Efficient and Deployable Clinical Models via Cross-Modal Low-Rank Adaptation for Medical Vision-Language Models [0.30586855806896035]
視覚言語による事前訓練によってトレーニングされた基礎モデルは、多様な画像領域にまたがる強力なゼロショット機能を示している。
MedCT-VLM(MedCT-VLM: Medical CT Vision-Language Model)を紹介する。
胸部疾患18例のゼロショット分類について検討し,CT埋め込みと未確認のテキストプロンプトを,タスク固有の訓練を伴わない推論で一致させなければならないことを示した。
論文 参考訳(メタデータ) (2025-11-29T19:03:25Z) - Towards a Benchmark for Colorectal Cancer Segmentation in Endorectal Ultrasound Videos: Dataset and Model Development [59.74920439478643]
本稿では,多様なERUSシナリオをカバーする最初のベンチマークデータセットを収集し,注釈付けする。
ERUS-10Kデータセットは77の動画と10,000の高解像度アノテートフレームで構成されています。
本稿では,ASTR (Adaptive Sparse-context TRansformer) という大腸癌セグメンテーションのベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2024-08-19T15:04:42Z) - An Explainable Non-local Network for COVID-19 Diagnosis [37.378584156643825]
新型3次元非局所ネットワーク(NL-RAN)を用いて,COVID-19,コモン肺炎,正常などのCT画像の分類を行った。
ネットワークにはグローバル情報をキャプチャするための非ローカルモジュールが埋め込まれており、3Dアテンションモジュールは病変の詳細に集中するために埋め込まれている。
実験結果から,提案手法は既存手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-08T08:35:21Z) - Towards a Holistic Framework for Multimodal Large Language Models in Three-dimensional Brain CT Report Generation [42.06416052431378]
2Dラジオグラフィーキャプションは、ボリューム3D解剖学における現実の診断課題を反映するものではない。
我々は18,885組の3D-BrainCTデータセットを収集し,臨床ビジュアルインストラクション・チューニングを用いて,脳波モデルを用いて放射線治療を施した3D脳CTレポートを作成した。
私たちの研究は、3Dの脳CTデータセットのキュレーション、微調整による解剖学的意味のある言語モデル、堅牢な放射線学評価指標の提案など、総合的な枠組みを具現化したものです。
論文 参考訳(メタデータ) (2024-07-02T12:58:35Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of
Pneumothorax [5.168314889999992]
胸部X線写真における気胸セグメンテーションのための新しい視覚言語モデルConTEXTual Netを提案する。
気胸3,196例のCANDID-PTXデータセットを用いて訓練を行った。
Diceのスコアは0.716$pm$0.016で、これは読者間のばらつきの程度に似ていた。
視覚のみのモデルと競合する視覚言語モデルの両方を上回った。
論文 参考訳(メタデータ) (2023-03-02T22:36:19Z) - Explainable multiple abnormality classification of chest CT volumes with
AxialNet and HiResCAM [89.2175350956813]
本稿では,容積医用画像における多変量分類の課題について紹介する。
本稿では,複数のインスタンス学習型畳み込みニューラルネットワークであるAxialNetを提案する。
そして、HiResCAMと3D許容領域を利用した新しいマスクロスにより、モデルの学習を改善することを目指す。
論文 参考訳(メタデータ) (2021-11-24T01:14:33Z) - Automatic size and pose homogenization with spatial transformer network
to improve and accelerate pediatric segmentation [51.916106055115755]
空間変換器ネットワーク(STN)を利用することにより、ポーズとスケール不変の新たなCNNアーキテクチャを提案する。
私たちのアーキテクチャは、トレーニング中に一緒に見積もられる3つのシーケンシャルモジュールで構成されています。
腹部CTスキャナーを用いた腎および腎腫瘍の分節法について検討した。
論文 参考訳(メタデータ) (2021-07-06T14:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。