論文の概要: EchoPrime: A Multi-Video View-Informed Vision-Language Model for Comprehensive Echocardiography Interpretation
- arxiv url: http://arxiv.org/abs/2410.09704v1
- Date: Sun, 13 Oct 2024 03:04:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 08:36:49.240897
- Title: EchoPrime: A Multi-Video View-Informed Vision-Language Model for Comprehensive Echocardiography Interpretation
- Title(参考訳): EchoPrime: 総合的心エコー図読解のためのマルチビデオビューインフォームドビジョンランゲージモデル
- Authors: Milos Vukadinovic, Xiu Tang, Neal Yuan, Paul Cheng, Debiao Li, Susan Cheng, Bryan He, David Ouyang,
- Abstract要約: 私たちは、1200万以上のビデオレポートペアでトレーニングされた、マルチビュー、ビューインフォームド、ビデオベースの視覚言語基盤モデルであるEchoPrimeを紹介します。
検索強化された解釈により、EchoPrimeはすべてのエコー心エコービデオから情報を総合的な研究に統合する。
2つの独立した医療システムからのデータセットでは、EchoPrimeは23種類の心臓形態と機能のベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 1.0840985826142429
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Echocardiography is the most widely used cardiac imaging modality, capturing ultrasound video data to assess cardiac structure and function. Artificial intelligence (AI) in echocardiography has the potential to streamline manual tasks and improve reproducibility and precision. However, most echocardiography AI models are single-view, single-task systems that do not synthesize complementary information from multiple views captured during a full exam, and thus lead to limited performance and scope of applications. To address this problem, we introduce EchoPrime, a multi-view, view-informed, video-based vision-language foundation model trained on over 12 million video-report pairs. EchoPrime uses contrastive learning to train a unified embedding model for all standard views in a comprehensive echocardiogram study with representation of both rare and common diseases and diagnoses. EchoPrime then utilizes view-classification and a view-informed anatomic attention model to weight video-specific interpretations that accurately maps the relationship between echocardiographic views and anatomical structures. With retrieval-augmented interpretation, EchoPrime integrates information from all echocardiogram videos in a comprehensive study and performs holistic comprehensive clinical echocardiography interpretation. In datasets from two independent healthcare systems, EchoPrime achieves state-of-the art performance on 23 diverse benchmarks of cardiac form and function, surpassing the performance of both task-specific approaches and prior foundation models. Following rigorous clinical evaluation, EchoPrime can assist physicians in the automated preliminary assessment of comprehensive echocardiography.
- Abstract(参考訳): 心エコー法は最も広く用いられている心臓画像モダリティであり、心構造と機能を評価するために超音波ビデオデータをキャプチャする。
心エコー法における人工知能(AI)は、手作業の合理化と再現性と精度の向上の可能性を秘めている。
しかし、ほとんどのエコー心電図AIモデルは、完全な試験中に取得した複数のビューから補完的な情報を合成しない単一ビューの単一タスクシステムであり、その結果、アプリケーションの性能とスコープが制限される。
この問題に対処するために、1200万組以上のビデオレポートペアでトレーニングされた、多視点、ビューインフォームド、ビデオベースの視覚言語基盤モデルであるEchoPrimeを紹介します。
EchoPrimeは、コントラスト学習を使用して、まれな疾患と一般的な疾患と診断の両方を表現した総合的なエコー心電図研究において、すべての標準ビューに統一的な埋め込みモデルをトレーニングする。
次に、EchoPrimeはビュー分類とビューインフォームド解剖学的注意モデルを使用して、心エコー図像と解剖学的構造との関係を正確にマッピングするビデオ固有の解釈を重み付けする。
検索強化解釈により、EchoPrimeは全心エコービデオからの情報を総合的な研究に統合し、総合的な総合的な臨床心エコー画像解釈を行う。
2つの独立した医療システムからのデータセットでは、EchoPrimeは23種類の心臓形態と機能のベンチマークで最先端のパフォーマンスを達成し、タスク固有のアプローチとそれ以前の基礎モデルの両方のパフォーマンスを上回っている。
厳格な臨床評価の後、EchoPrimeは、総合的心エコー検査の自動予備評価において、医師を支援することができる。
関連論文リスト
- EchoFM: Foundation Model for Generalizable Echocardiogram Analysis [22.585990526913246]
心エコービデオの表現と解析に特化して設計された基礎モデルであるEchoFMを紹介する。
EchoFMでは,空間的および時間的変動の両方をキャプチャする自己教師型学習フレームワークを提案する。
我々は,290,000本以上の心エコービデオと最大2000万フレームの画像からなる広範囲なデータセット上で,我々のモデルを事前訓練した。
論文 参考訳(メタデータ) (2024-10-30T19:32:02Z) - EchoApex: A General-Purpose Vision Foundation Model for Echocardiography [9.202542805578432]
本稿では,初の汎用視覚基礎モデルであるEchoApexを紹介し,様々な臨床応用について紹介する。
自己教師付き学習を活用して、EchoApexは11の臨床センターから2000万以上のエコー画像に事前訓練されている。
最先端のタスク固有のモデルと比較すると、EchoApexは統一されたイメージエンコーディングアーキテクチャでパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2024-10-14T21:10:56Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - Cardiac Copilot: Automatic Probe Guidance for Echocardiography with World Model [66.35766658717205]
心臓の複雑な構造と重要な手術上の課題のため、経験豊富なソノグラフィーが不足している。
本稿では,リアルタイムなプローブ移動誘導が可能なCardiac Copilotシステムを提案する。
中心となるイノベーションは、心臓の空間構造を表現するためのデータ駆動の世界モデル、Cardiac Dreamerの提案である。
実世界の超音波データとそれに対応するプローブの動きを,3人のソノグラフィーによる151Kサンプル対を用いた110の定期的な臨床スキャンからトレーニングする。
論文 参考訳(メタデータ) (2024-06-19T02:42:29Z) - Automatic Cardiac Pathology Recognition in Echocardiography Images Using Higher Order Dynamic Mode Decomposition and a Vision Transformer for Small Datasets [2.0286377328378737]
心臓病は、人間の機能不全の主な原因だ。WHOによると、心臓病のために毎年約1800万人が死亡している。
本研究では,新しい深層学習フレームワークに基づく自動心臓病理診断システムを提案する。
論文 参考訳(メタデータ) (2024-04-30T14:16:45Z) - CathFlow: Self-Supervised Segmentation of Catheters in Interventional Ultrasound Using Optical Flow and Transformers [66.15847237150909]
縦型超音波画像におけるカテーテルのセグメンテーションのための自己教師型ディープラーニングアーキテクチャを提案する。
ネットワークアーキテクチャは、Attention in Attentionメカニズムで構築されたセグメンテーショントランスフォーマであるAiAReSeg上に構築されている。
我々は,シリコンオルタファントムから収集した合成データと画像からなる実験データセット上で,我々のモデルを検証した。
論文 参考訳(メタデータ) (2024-03-21T15:13:36Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Multimodal Foundation Models For Echocardiogram Interpretation [0.24578723416255746]
1,032,975個の心エコービデオとそれに対応する専門的解釈を用いて,EchoCLIPを開発した。
EchoCLIPは、心臓機能評価において強いゼロショット(明示的に訓練されていない)パフォーマンスを示す。
また,エコーCLIP-R (Long-context variant, EchoCLIP-R) も開発した。
論文 参考訳(メタデータ) (2023-08-29T23:45:54Z) - GEMTrans: A General, Echocardiography-based, Multi-Level Transformer
Framework for Cardiovascular Diagnosis [14.737295160286939]
視覚ベースの機械学習(ML)手法は、検証の二次レイヤとして人気を集めている。
本稿では,説明可能性を提供する汎用のマルチレベルトランス(GEMTrans)フレームワークを提案する。
大動脈狭窄症(AS)の重症度検出と排卵率(EF)の2つの重要な課題を考慮し,本フレームワークの柔軟性を示す。
論文 参考訳(メタデータ) (2023-08-25T07:30:18Z) - Improving Radiology Summarization with Radiograph and Anatomy Prompts [60.30659124918211]
本稿では,印象生成を促進するために,新しい解剖学的拡張型マルチモーダルモデルを提案する。
より詳しくは、まず、解剖学を抽出する一連のルールを構築し、各文にこれらのプロンプトを配置し、解剖学的特徴を強調する。
コントラスト学習モジュールを用いて、これらの2つの表現を全体レベルで整列させ、コアテンションを用いて文レベルで融合させる。
論文 参考訳(メタデータ) (2022-10-15T14:05:03Z) - Factored Attention and Embedding for Unstructured-view Topic-related
Ultrasound Report Generation [70.7778938191405]
本研究では,非構造的トピック関連超音波レポート生成のための新しい因子的注意・埋め込みモデル(FAE-Gen)を提案する。
提案したFAE-Genは主に2つのモジュール、すなわちビュー誘導因子の注意とトピック指向因子の埋め込みから構成されており、異なるビューで均質および不均一な形態的特徴を捉えている。
論文 参考訳(メタデータ) (2022-03-12T15:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。