論文の概要: Cardiac-CLIP: A Vision-Language Foundation Model for 3D Cardiac CT Images
- arxiv url: http://arxiv.org/abs/2507.22024v1
- Date: Tue, 29 Jul 2025 17:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.770465
- Title: Cardiac-CLIP: A Vision-Language Foundation Model for 3D Cardiac CT Images
- Title(参考訳): Cardiac-CLIP : 3次元心臓CT画像の可視化基礎モデル
- Authors: Yutao Hu, Ying Zheng, Shumei Miao, Xiaolei Zhang, Jiahao Xia, Yaolei Qi, Yiyang Zhang, Yuting He, Qian Chen, Jing Ye, Hongyan Qiao, Xiuhua Hu, Lei Xu, Jiayin Zhang, Hui Liu, Minwen Zheng, Yining Wang, Daimin Zhang, Ji Zhang, Wenqi Shao, Yun Liu, Longjiang Zhang, Guanyu Yang,
- Abstract要約: 心臓CT画像のための多モード基礎モデルであるCardiac-CLIPを提案する。
CLIPは2段階の事前学習戦略によって開発されている。
CLIPは、心臓血管異常分類、情報検索、臨床分析など、複数のタスクで評価される。
- 参考スコア(独自算出の注目度): 29.39287623923477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have demonstrated remarkable potential in medical domain. However, their application to complex cardiovascular diagnostics remains underexplored. In this paper, we present Cardiac-CLIP, a multi-modal foundation model designed for 3D cardiac CT images. Cardiac-CLIP is developed through a two-stage pre-training strategy. The first stage employs a 3D masked autoencoder (MAE) to perform self-supervised representation learning from large-scale unlabeled volumetric data, enabling the visual encoder to capture rich anatomical and contextual features. In the second stage, contrastive learning is introduced to align visual and textual representations, facilitating cross-modal understanding. To support the pre-training, we collect 16641 real clinical CT scans, supplemented by 114k publicly available data. Meanwhile, we standardize free-text radiology reports into unified templates and construct the pathology vectors according to diagnostic attributes, based on which the soft-label matrix is generated to supervise the contrastive learning process. On the other hand, to comprehensively evaluate the effectiveness of Cardiac-CLIP, we collect 6,722 real-clinical data from 12 independent institutions, along with the open-source data to construct the evaluation dataset. Specifically, Cardiac-CLIP is comprehensively evaluated across multiple tasks, including cardiovascular abnormality classification, information retrieval and clinical analysis. Experimental results demonstrate that Cardiac-CLIP achieves state-of-the-art performance across various downstream tasks in both internal and external data. Particularly, Cardiac-CLIP exhibits great effectiveness in supporting complex clinical tasks such as the prospective prediction of acute coronary syndrome, which is notoriously difficult in real-world scenarios.
- Abstract(参考訳): 基礎モデルは医学領域において顕著な可能性を証明している。
しかし, 複雑な心血管診断への応用はいまだ検討されていない。
本稿では,心臓CT画像のための多モード基礎モデルであるCardiac-CLIPを提案する。
Cardiac-CLIPは2段階の事前トレーニング戦略によって開発されている。
第1段階では、3Dマスク付きオートエンコーダ(MAE)を使用して、大規模未ラベルのボリュームデータから自己教師付き表現学習を行い、視覚エンコーダは豊富な解剖学的特徴と文脈的特徴をキャプチャすることができる。
第2段階では、視覚的およびテキスト的表現を整列させるためにコントラスト学習が導入され、モーダル理解が促進される。
プレトレーニングを支援するために,114万件の公開データで補足した16641個の臨床CTを収集した。
一方,フリーテキストラジオグラフィーレポートを統一テンプレートに標準化し,ソフトラベル行列を作成した診断属性に基づいて病理ベクトルを構築し,対比学習プロセスを監督する。
一方、Cardiac-CLIPの有効性を総合的に評価するために、12の独立機関から6,722のリアルタイムデータとオープンソースデータを収集し、評価データセットを構築した。
具体的には, 循環器異常分類, 情報検索, 臨床分析など, 複数のタスクにおいて総合的に評価される。
実験の結果,Cardiac-CLIPは内部データと外部データの両方において,様々なダウンストリームタスクにまたがる最先端性能を実現することがわかった。
特にCardiac-CLIPは、急性冠症候群の予知など、現実のシナリオでは極めて困難である複雑な臨床タスクを支援する上で非常に有効である。
関連論文リスト
- Sensing Cardiac Health Across Scenarios and Devices: A Multi-Modal Foundation Model Pretrained on Heterogeneous Data from 1.7 Million Individuals [36.08910150609342]
広大で異質な健康記録から統一された表現を学習する心センシング基礎モデル(CSFM)を提案する。
我々のモデルは、複数の大規模データセットからのデータの革新的なマルチモーダル統合に基づいて事前訓練されている。
CSFMは従来のワンモーダル・ワン・タスク・アプローチより一貫して優れている。
論文 参考訳(メタデータ) (2025-06-23T20:58:12Z) - Heartcare Suite: Multi-dimensional Understanding of ECG with Raw Multi-lead Signal Modeling [50.58126509704037]
医療スイート(Heartcare Suite)は、微細心電図(ECG)の理解のためのフレームワークである。
Heartcare-220Kは高品質で構造化され、包括的なマルチモーダルECGデータセットである。
Heartcare-Benchは、ECGシナリオにおける医療マルチモーダル大言語モデル(Med-MLLM)の最適化を導くためのベンチマークである。
論文 参考訳(メタデータ) (2025-06-06T07:56:41Z) - Foundation Model for Whole-Heart Segmentation: Leveraging Student-Teacher Learning in Multi-Modal Medical Imaging [0.510750648708198]
心血管疾患の診断にはCTとMRIによる全肝分画が不可欠である。
既存の方法は、モダリティ固有のバイアスと、広範なラベル付きデータセットの必要性に苦慮している。
学生-教師アーキテクチャに基づく自己指導型学習フレームワークを用いて,全音節セグメンテーションのための基礎モデルを提案する。
論文 参考訳(メタデータ) (2025-03-24T14:47:54Z) - Sequence-aware Pre-training for Echocardiography Probe Movement Guidance [71.79421124144145]
本稿では,高品質な標準平面画像取得のためのプローブポーズ調整によるロボットシステムや初心者の誘導に応用可能な,新しいプローブ移動誘導アルゴリズムを提案する。
本研究では, マスクアウト画像の特徴とプローブ動作をスキャンシーケンスで予測することにより, パーソナライズされた3次元心構造の特徴を学習する。
論文 参考訳(メタデータ) (2024-08-27T12:55:54Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - A Generalizable Deep Learning System for Cardiac MRI [29.429744474335347]
本稿では,ヒト心血管疾患と健康の広さを表現できる心臓MRIの基礎的ビジョンシステムについて述べる。
深層学習モデルは自己指導型コントラスト学習によって訓練され, 関連する放射線学報告の生テキストからシネケンス心磁図の視覚的概念を学習する。
本研究の深層学習システムは,人間の心血管疾患の停滞する複雑さを理解できるだけでなく,典型的にはこれらの課題に必要とされるトレーニングデータのごく一部を応用した,目覚しい臨床段階の診断精度をもたらす臨床上の問題に向けることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T05:27:29Z) - Extraction of volumetric indices from echocardiography: which deep
learning solution for clinical use? [6.144041824426555]
提案した3D nnU-Netは,2D法と繰り返しセグメンテーション法よりも優れていることを示す。
実験の結果、十分なトレーニングデータがあれば、3D nnU-Netは日常的な臨床機器の基準を満たす最初の自動化ツールとなる可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-03T09:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。