論文の概要: Cardiac-CLIP: A Vision-Language Foundation Model for 3D Cardiac CT Images
- arxiv url: http://arxiv.org/abs/2507.22024v1
- Date: Tue, 29 Jul 2025 17:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.770465
- Title: Cardiac-CLIP: A Vision-Language Foundation Model for 3D Cardiac CT Images
- Title(参考訳): Cardiac-CLIP : 3次元心臓CT画像の可視化基礎モデル
- Authors: Yutao Hu, Ying Zheng, Shumei Miao, Xiaolei Zhang, Jiahao Xia, Yaolei Qi, Yiyang Zhang, Yuting He, Qian Chen, Jing Ye, Hongyan Qiao, Xiuhua Hu, Lei Xu, Jiayin Zhang, Hui Liu, Minwen Zheng, Yining Wang, Daimin Zhang, Ji Zhang, Wenqi Shao, Yun Liu, Longjiang Zhang, Guanyu Yang,
- Abstract要約: 心臓CT画像のための多モード基礎モデルであるCardiac-CLIPを提案する。
CLIPは2段階の事前学習戦略によって開発されている。
CLIPは、心臓血管異常分類、情報検索、臨床分析など、複数のタスクで評価される。
- 参考スコア(独自算出の注目度): 29.39287623923477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have demonstrated remarkable potential in medical domain. However, their application to complex cardiovascular diagnostics remains underexplored. In this paper, we present Cardiac-CLIP, a multi-modal foundation model designed for 3D cardiac CT images. Cardiac-CLIP is developed through a two-stage pre-training strategy. The first stage employs a 3D masked autoencoder (MAE) to perform self-supervised representation learning from large-scale unlabeled volumetric data, enabling the visual encoder to capture rich anatomical and contextual features. In the second stage, contrastive learning is introduced to align visual and textual representations, facilitating cross-modal understanding. To support the pre-training, we collect 16641 real clinical CT scans, supplemented by 114k publicly available data. Meanwhile, we standardize free-text radiology reports into unified templates and construct the pathology vectors according to diagnostic attributes, based on which the soft-label matrix is generated to supervise the contrastive learning process. On the other hand, to comprehensively evaluate the effectiveness of Cardiac-CLIP, we collect 6,722 real-clinical data from 12 independent institutions, along with the open-source data to construct the evaluation dataset. Specifically, Cardiac-CLIP is comprehensively evaluated across multiple tasks, including cardiovascular abnormality classification, information retrieval and clinical analysis. Experimental results demonstrate that Cardiac-CLIP achieves state-of-the-art performance across various downstream tasks in both internal and external data. Particularly, Cardiac-CLIP exhibits great effectiveness in supporting complex clinical tasks such as the prospective prediction of acute coronary syndrome, which is notoriously difficult in real-world scenarios.
- Abstract(参考訳): 基礎モデルは医学領域において顕著な可能性を証明している。
しかし, 複雑な心血管診断への応用はいまだ検討されていない。
本稿では,心臓CT画像のための多モード基礎モデルであるCardiac-CLIPを提案する。
Cardiac-CLIPは2段階の事前トレーニング戦略によって開発されている。
第1段階では、3Dマスク付きオートエンコーダ(MAE)を使用して、大規模未ラベルのボリュームデータから自己教師付き表現学習を行い、視覚エンコーダは豊富な解剖学的特徴と文脈的特徴をキャプチャすることができる。
第2段階では、視覚的およびテキスト的表現を整列させるためにコントラスト学習が導入され、モーダル理解が促進される。
プレトレーニングを支援するために,114万件の公開データで補足した16641個の臨床CTを収集した。
一方,フリーテキストラジオグラフィーレポートを統一テンプレートに標準化し,ソフトラベル行列を作成した診断属性に基づいて病理ベクトルを構築し,対比学習プロセスを監督する。
一方、Cardiac-CLIPの有効性を総合的に評価するために、12の独立機関から6,722のリアルタイムデータとオープンソースデータを収集し、評価データセットを構築した。
具体的には, 循環器異常分類, 情報検索, 臨床分析など, 複数のタスクにおいて総合的に評価される。
実験の結果,Cardiac-CLIPは内部データと外部データの両方において,様々なダウンストリームタスクにまたがる最先端性能を実現することがわかった。
特にCardiac-CLIPは、急性冠症候群の予知など、現実のシナリオでは極めて困難である複雑な臨床タスクを支援する上で非常に有効である。
関連論文リスト
- Sensing Cardiac Health Across Scenarios and Devices: A Multi-Modal Foundation Model Pretrained on Heterogeneous Data from 1.7 Million Individuals [36.08910150609342]
広大で異質な健康記録から統一された表現を学習する心センシング基礎モデル(CSFM)を提案する。
我々のモデルは、複数の大規模データセットからのデータの革新的なマルチモーダル統合に基づいて事前訓練されている。
CSFMは従来のワンモーダル・ワン・タスク・アプローチより一貫して優れている。
論文 参考訳(メタデータ) (2025-06-23T20:58:12Z) - Heartcare Suite: Multi-dimensional Understanding of ECG with Raw Multi-lead Signal Modeling [50.58126509704037]
医療スイート(Heartcare Suite)は、微細心電図(ECG)の理解のためのフレームワークである。
Heartcare-220Kは高品質で構造化され、包括的なマルチモーダルECGデータセットである。
Heartcare-Benchは、ECGシナリオにおける医療マルチモーダル大言語モデル(Med-MLLM)の最適化を導くためのベンチマークである。
論文 参考訳(メタデータ) (2025-06-06T07:56:41Z) - Foundation Model for Whole-Heart Segmentation: Leveraging Student-Teacher Learning in Multi-Modal Medical Imaging [0.510750648708198]
心血管疾患の診断にはCTとMRIによる全肝分画が不可欠である。
既存の方法は、モダリティ固有のバイアスと、広範なラベル付きデータセットの必要性に苦慮している。
学生-教師アーキテクチャに基づく自己指導型学習フレームワークを用いて,全音節セグメンテーションのための基礎モデルを提案する。
論文 参考訳(メタデータ) (2025-03-24T14:47:54Z) - Abnormality-Driven Representation Learning for Radiology Imaging [0.8321462983924758]
病変強調型コントラスト学習(LeCL)は,CTスキャンの異なる部位にわたる2次元軸方向スライスにおける異常により引き起こされる視覚的表現を得るための新しい手法である。
本研究は, 腫瘍病変位置, 肺疾患検出, 患者ステージングの3つの臨床的課題に対するアプローチを, 最先端の4つの基礎モデルと比較した。
論文 参考訳(メタデータ) (2024-11-25T13:53:26Z) - FedCVD: The First Real-World Federated Learning Benchmark on Cardiovascular Disease Data [52.55123685248105]
心臓血管疾患(CVD)は、現在世界でも主要な死因であり、早期診断と治療の要点を浮き彫りにしている。
機械学習(ML)手法はCVDの早期診断に役立つが、その性能は高品質なデータへのアクセスに依存している。
本稿では、FedCVDという心臓血管疾患検出のための、世界初の実世界のFLベンチマークを示す。
論文 参考訳(メタデータ) (2024-10-28T02:24:01Z) - Sequence-aware Pre-training for Echocardiography Probe Movement Guidance [71.79421124144145]
本稿では,高品質な標準平面画像取得のためのプローブポーズ調整によるロボットシステムや初心者の誘導に応用可能な,新しいプローブ移動誘導アルゴリズムを提案する。
本研究では, マスクアウト画像の特徴とプローブ動作をスキャンシーケンスで予測することにより, パーソナライズされた3次元心構造の特徴を学習する。
論文 参考訳(メタデータ) (2024-08-27T12:55:54Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - A Generalizable Deep Learning System for Cardiac MRI [29.429744474335347]
本稿では,ヒト心血管疾患と健康の広さを表現できる心臓MRIの基礎的ビジョンシステムについて述べる。
深層学習モデルは自己指導型コントラスト学習によって訓練され, 関連する放射線学報告の生テキストからシネケンス心磁図の視覚的概念を学習する。
本研究の深層学習システムは,人間の心血管疾患の停滞する複雑さを理解できるだけでなく,典型的にはこれらの課題に必要とされるトレーニングデータのごく一部を応用した,目覚しい臨床段階の診断精度をもたらす臨床上の問題に向けることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T05:27:29Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Extraction of volumetric indices from echocardiography: which deep
learning solution for clinical use? [6.144041824426555]
提案した3D nnU-Netは,2D法と繰り返しセグメンテーション法よりも優れていることを示す。
実験の結果、十分なトレーニングデータがあれば、3D nnU-Netは日常的な臨床機器の基準を満たす最初の自動化ツールとなる可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-03T09:38:52Z) - Diagnosis of Coronavirus Disease 2019 (COVID-19) with Structured Latent
Multi-View Representation Learning [48.05232274463484]
最近、コロナウイルス病2019(COVID-19)の流行は世界中で急速に広まっている。
多くの患者と医師の重労働のために、機械学習アルゴリズムによるコンピュータ支援診断が緊急に必要である。
本研究では,CT画像から抽出した一連の特徴を用いて,COVID-19の診断を行うことを提案する。
論文 参考訳(メタデータ) (2020-05-06T15:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。