論文の概要: EchoVLM: Measurement-Grounded Multimodal Learning for Echocardiography
- arxiv url: http://arxiv.org/abs/2512.12107v1
- Date: Sat, 13 Dec 2025 00:48:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.123091
- Title: EchoVLM: Measurement-Grounded Multimodal Learning for Echocardiography
- Title(参考訳): EchoVLM:心エコー計測のためのマルチモーダル学習
- Authors: Yuheng Li, Yue Zhang, Abdoul Aziz Amadou, Yuxiang Lai, Jike Zhong, Tiziano Passerini, Dorin Comaniciu, Puneet Sharma,
- Abstract要約: 視覚言語モデル(VLM)は、自然画像や特定の医学領域で広く成功している。
本稿では,第1回マルチモーダル心エコー法データセットであるEchoGround-MIMICを紹介する。
本稿では,2つの新しい事前学習目標を組み込んだ視覚言語モデルであるEchoVLMを提案する。
- 参考スコア(独自算出の注目度): 19.10644729648278
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Echocardiography is the most widely used imaging modality in cardiology, yet its interpretation remains labor-intensive and inherently multimodal, requiring view recognition, quantitative measurements, qualitative assessments, and guideline-based reasoning. While recent vision-language models (VLMs) have achieved broad success in natural images and certain medical domains, their potential in echocardiography has been limited by the lack of large-scale, clinically grounded image-text datasets and the absence of measurement-based reasoning central to echo interpretation. We introduce EchoGround-MIMIC, the first measurement-grounded multimodal echocardiography dataset, comprising 19,065 image-text pairs from 1,572 patients with standardized views, structured measurements, measurement-grounded captions, and guideline-derived disease labels. Building on this resource, we propose EchoVLM, a vision-language model that incorporates two novel pretraining objectives: (i) a view-informed contrastive loss that encodes the view-dependent structure of echocardiographic imaging, and (ii) a negation-aware contrastive loss that distinguishes clinically critical negative from positive findings. Across five types of clinical applications with 36 tasks spanning multimodal disease classification, image-text retrieval, view classification, chamber segmentation, and landmark detection, EchoVLM achieves state-of-the-art performance (86.5% AUC in zero-shot disease classification and 95.1% accuracy in view classification). We demonstrate that clinically grounded multimodal pretraining yields transferable visual representations and establish EchoVLM as a foundation model for end-to-end echocardiography interpretation. We will release EchoGround-MIMIC and the data curation code, enabling reproducibility and further research in multimodal echocardiography interpretation.
- Abstract(参考訳): 心エコー法は心臓学において最も広く用いられている画像モダリティであるが、その解釈は労働集約的で本質的にはマルチモーダルであり、ビュー認識、定量的測定、質的評価、ガイドラインに基づく推論を必要とする。
近年の視覚言語モデル(VLM)は、自然画像や特定の医学領域において広く成功しているが、そのエコー心エコー法の可能性は、大規模で臨床的に基盤付けられた画像テキストデータセットの欠如と、エコー解釈の中心となる測定に基づく推論の欠如によって制限されている。
本研究では, 標準化された1,572例, 構造化された測定, 測定済みキャプション, ガイドライン由来の疾患ラベルから, 19,065 個の画像テキストを抽出し, 心電図を用いた最初のマルチモーダル心電図データセットである EchoGround-MIMIC を紹介する。
このリソースを基盤として,2つの新たな事前学習目標を組み込んだ視覚言語モデルであるEchoVLMを提案する。
一 心エコー画像のビュー依存構造を符号化したビューインフォームドコントラスト損失
(II)臨床批判的否定と陽性所見とを区別する否定的対照的な損失。
マルチモーダル病分類、画像テキスト検索、ビュー分類、チャンバーセグメンテーション、ランドマーク検出を含む36のタスクを含む5種類の臨床応用において、EchoVLMは最先端のパフォーマンスを達成する(ゼロショット病分類では86.5%、ビュー分類では95.1%)。
本研究は, 臨床応用によるマルチモーダルプレトレーニングにより, 伝達可能な視覚表現が得られ, 終末心エコー図法の基礎モデルとしてEchoVLMが確立されることを実証する。
我々は、EchoGround-MIMICとデータキュレーションコードをリリースし、再現性とマルチモーダル心エコー図法におけるさらなる研究を可能にする。
関連論文リスト
- Echo-CoPilot: A Multi-View, Multi-Task Agent for Echocardiography Interpretation and Reporting [8.162197738994479]
本稿では,多視点マルチタスクエージェントであるEcho-CoPilotを紹介する。
ReActスタイルのループ内で、エージェントは臨床クエリを分解し、ビュー認識、心臓構造セグメンテーション、測定と疾患予測、およびレポート合成のためのツールを起動する。
公開MIMIC-EchoQAベンチマークでEcho-CoPilotを評価し、50.8%の精度で、汎用的およびバイオメディカルなビデオビジョン言語モデルよりも優れています。
論文 参考訳(メタデータ) (2025-12-06T23:27:54Z) - Epistemic-aware Vision-Language Foundation Model for Fetal Ultrasound Interpretation [83.02147613524032]
医療用AIシステムFetalMindについて報告する。
本稿では、専門家による2部グラフをモデルに注入し、ビュー・ディスリーズ関連を分離するSED(Salient Epistemic Disentanglement)を提案する。
FetalMindはすべての妊娠期のオープンソースおよびクローズドソースベースラインを上回り、平均利得は+14%、臨界条件では+61.2%高い。
論文 参考訳(メタデータ) (2025-10-14T19:57:03Z) - EchoApex: A General-Purpose Vision Foundation Model for Echocardiography [9.202542805578432]
本稿では,初の汎用視覚基礎モデルであるEchoApexを紹介し,様々な臨床応用について紹介する。
自己教師付き学習を活用して、EchoApexは11の臨床センターから2000万以上のエコー画像に事前訓練されている。
最先端のタスク固有のモデルと比較すると、EchoApexは統一されたイメージエンコーディングアーキテクチャでパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2024-10-14T21:10:56Z) - Multi-scale, Data-driven and Anatomically Constrained Deep Learning
Image Registration for Adult and Fetal Echocardiography [4.923733944174007]
胎児と成人のエコーにおける深層学習画像登録のための3つの戦略を組み合わせた枠組みを提案する。
以上の結果から, 良好な解剖学的トポロジーと画像テクスチャは, 形状符号化およびデータ駆動型対向損失と強く結びついていることが判明した。
当社のアプローチは,光学フローやElastixなど,従来の非DLゴールド登録手法よりも優れています。
論文 参考訳(メタデータ) (2023-09-02T05:33:31Z) - Multimodal Foundation Models For Echocardiogram Interpretation [0.24578723416255746]
1,032,975個の心エコービデオとそれに対応する専門的解釈を用いて,EchoCLIPを開発した。
EchoCLIPは、心臓機能評価において強いゼロショット(明示的に訓練されていない)パフォーマンスを示す。
また,エコーCLIP-R (Long-context variant, EchoCLIP-R) も開発した。
論文 参考訳(メタデータ) (2023-08-29T23:45:54Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - MyoPS: A Benchmark of Myocardial Pathology Segmentation Combining
Three-Sequence Cardiac Magnetic Resonance Images [84.02849948202116]
本研究は,MyoPS(MyoPS)の医療画像解析における新たな課題を定義するものである。
myoPSは、MICCAI 2020とともにMyoPSチャレンジで最初に提案された3シーケンスの心臓磁気共鳴(CMR)画像を組み合わせている。
この課題は45対のCMR画像と予め整列されたCMR画像を提供し、アルゴリズムは3つのCMRシーケンスから補完的な情報を結合して病理領域を分割することを可能にする。
論文 参考訳(メタデータ) (2022-01-10T06:37:23Z) - Semantic segmentation of multispectral photoacoustic images using deep
learning [53.65837038435433]
光音響イメージングは医療に革命をもたらす可能性がある。
この技術の臨床的翻訳には、高次元取得したデータを臨床的に関連性があり解釈可能な情報に変換する必要がある。
本稿では,多スペクトル光音響画像のセマンティックセグメンテーションに対する深層学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-20T09:33:55Z) - Malignancy Prediction and Lesion Identification from Clinical
Dermatological Images [65.1629311281062]
臨床皮膚画像から機械学習に基づく悪性度予測と病変の同定を検討する。
まず, サブタイプや悪性度に関わらず画像に存在するすべての病変を同定し, その悪性度を推定し, 凝集により, 画像レベルの悪性度も生成する。
論文 参考訳(メタデータ) (2021-04-02T20:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。