論文の概要: GEM: Empowering MLLM for Grounded ECG Understanding with Time Series and Images
- arxiv url: http://arxiv.org/abs/2503.06073v1
- Date: Sat, 08 Mar 2025 05:48:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:53:21.585681
- Title: GEM: Empowering MLLM for Grounded ECG Understanding with Time Series and Images
- Title(参考訳): GEM:時系列と画像による地上ECG理解のためのMLLMの強化
- Authors: Xiang Lan, Feng Wu, Kai He, Qinghao Zhao, Shenda Hong, Mengling Feng,
- Abstract要約: GEMは,第1回MLLM統合ECG時系列,第12回リードECG画像,地上および臨床のECG解釈のためのテキストである。
GEMは、3つのコアイノベーションを通じて機能的解析、エビデンス駆動推論、および臨床医のような診断プロセスを可能にする。
基礎心電図理解におけるMLLMの能力を評価するために,臨床動機付けのベンチマークであるグラウンドドECGタスクを提案する。
- 参考スコア(独自算出の注目度): 43.65650710265957
- License:
- Abstract: While recent multimodal large language models (MLLMs) have advanced automated ECG interpretation, they still face two key limitations: (1) insufficient multimodal synergy between time series signals and visual ECG representations, and (2) limited explainability in linking diagnoses to granular waveform evidence. We introduce GEM, the first MLLM unifying ECG time series, 12-lead ECG images and text for grounded and clinician-aligned ECG interpretation. GEM enables feature-grounded analysis, evidence-driven reasoning, and a clinician-like diagnostic process through three core innovations: a dual-encoder framework extracting complementary time series and image features, cross-modal alignment for effective multimodal understanding, and knowledge-guided instruction generation for generating high-granularity grounding data (ECG-Grounding) linking diagnoses to measurable parameters ($e.g.$, QRS/PR Intervals). Additionally, we propose the Grounded ECG Understanding task, a clinically motivated benchmark designed to comprehensively assess the MLLM's capability in grounded ECG understanding. Experimental results on both existing and our proposed benchmarks show GEM significantly improves predictive performance (CSN $7.4\% \uparrow$), explainability ($22.7\% \uparrow$), and grounding ($24.8\% \uparrow$), making it more suitable for real-world clinical applications. GitHub repository: https://github.com/lanxiang1017/GEM.git
- Abstract(参考訳): 最近のマルチモーダル大言語モデル(MLLM)は、自動ECGの解釈が進んでいるが、(1)時系列信号と視覚ECG表現のマルチモーダル相乗効果が不十分なこと、(2)診断と粒状波形の証拠をリンクする際の説明可能性に制限があること、の2つの重要な制限に直面している。
GEMは,第1回MLLM統合ECG時系列,第12回リードECG画像,地上および臨床のECG解釈のためのテキストである。
GEMは、特徴的解析、エビデンス駆動推論、臨床のような診断プロセスを、3つのコアイノベーションを通じて実現している: 補完的な時系列と画像の特徴を抽出するデュアルエンコーダフレームワーク、効果的なマルチモーダル理解のためのクロスモーダルアライメント、高粒度グラウンドデータ(ECG-Grounding)を生成するための知識誘導命令生成(例:$, QRS/PRインターバル)。
さらに,基礎心電図理解におけるMLLMの能力を総合的に評価するために,臨床動機付けのベンチマークであるグラウンドドECG理解タスクを提案する。
既存ベンチマークと提案ベンチマークの両方の実験結果から,GEMは予測性能(CSN 7.4 % \uparrow$),説明可能性(22.7 % \uparrow$),グラウンド化(24.8 % \uparrow$)を大幅に改善し,実際の臨床応用に適していることが示された。
GitHubリポジトリ:https://github.com/lanxiang1017/GEM.git
関連論文リスト
- CognitionCapturer: Decoding Visual Stimuli From Human EEG Signal With Multimodal Information [61.1904164368732]
脳波信号の表現にマルチモーダルデータを完全に活用する統合フレームワークであるCognitionCapturerを提案する。
具体的には、CognitionCapturerは、各モダリティに対してモダリティエキスパートを訓練し、EEGモダリティからモダリティ情報を抽出する。
このフレームワークは生成モデルの微調整を一切必要とせず、より多くのモダリティを組み込むように拡張することができる。
論文 参考訳(メタデータ) (2024-12-13T16:27:54Z) - GAF-FusionNet: Multimodal ECG Analysis via Gramian Angular Fields and Split Attention [4.673285689826945]
本稿では,時系列解析と画像ベース表現を統合した新しいECG分類フレームワークを提案する。
我々は、ECG200、ECG5000、MIT-BIH Arrhythmia Databaseの3つの多様なデータセット上でECG-FusionNetを評価した。
その結果,各データセットの94.5%,96.9%,99.6%の精度が得られた。
論文 参考訳(メタデータ) (2024-12-07T07:02:16Z) - ECG-FM: An Open Electrocardiogram Foundation Model [3.611746032873298]
本稿では,ECG分析のためのオープン基盤モデルであるECG-FMを提案する。
ECG-FMはトランスフォーマーベースのアーキテクチャを採用し、250万のサンプルで事前訓練されている。
文脈情報のコマンドが強靭なパフォーマンス、豊富な事前学習された埋め込み、信頼性のある解釈可能性をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-09T17:06:49Z) - ECG Semantic Integrator (ESI): A Foundation ECG Model Pretrained with LLM-Enhanced Cardiological Text [14.06147507373525]
本研究は,12誘導ECG信号の学習表現の品質とロバスト性の向上を目的とした,新しいマルチモーダルコントラスト保持フレームワークを提案する。
私たちのフレームワークは、Cardio Query Assistant(CQA)とECG Semantics Integrator(ESI)の2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2024-05-26T06:45:39Z) - MEIT: Multi-Modal Electrocardiogram Instruction Tuning on Large Language Models for Report Generation [41.324530807795256]
心電図(Electrocardiogram、ECG)は、心臓の状態をモニタリングするための主要な非侵襲的診断ツールである。
最近の研究は心電図データを用いた心臓状態の分類に集中しているが、心電図レポートの生成は見落としている。
LLMとマルチモーダル命令を用いてECGレポート生成に取り組む最初の試みであるMultimodal ECG Instruction Tuning (MEIT) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T23:20:56Z) - DGSD: Dynamical Graph Self-Distillation for EEG-Based Auditory Spatial
Attention Detection [49.196182908826565]
AAD(Auditory Attention Detection)は、マルチスピーカー環境で脳信号からターゲット話者を検出することを目的としている。
現在のアプローチは主に、画像のようなユークリッドデータを処理するために設計された従来の畳み込みニューラルネットワークに依存している。
本稿では、入力として音声刺激を必要としないAADのための動的グラフ自己蒸留(DGSD)手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T13:43:46Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Generalizing electrocardiogram delineation: training convolutional
neural networks with synthetic data augmentation [63.51064808536065]
ECGのデライン化のための既存のデータベースは小さく、サイズやそれらが表す病態の配列に不足している。
まず、原データベースから抽出した基本セグメントのプールを与えられたECGトレースを確率的に合成し、その整合性のある合成トレースに配置するための一連のルールを考案した。
第二に、2つの新しいセグメンテーションに基づく損失関数が開発され、これは、正確な数の独立構造の予測を強制し、サンプル数の削減に焦点をあてて、より密接なセグメンテーション境界を創出することを目的としている。
論文 参考訳(メタデータ) (2021-11-25T10:11:41Z) - SE-ECGNet: A Multi-scale Deep Residual Network with
Squeeze-and-Excitation Module for ECG Signal Classification [6.124438924401066]
ECG信号分類タスクのためのマルチスケール深部残差ネットワークを開発しています。
我々は,マルチリード信号を2次元行列として扱うことを提案する。
提案モデルは,mit-bihデータセットでは99.2%,alibabaデータセットでは89.4%のf1-scoreを実現する。
論文 参考訳(メタデータ) (2020-12-10T08:37:44Z) - ECG-DelNet: Delineation of Ambulatory Electrocardiograms with Mixed
Quality Labeling Using Neural Networks [69.25956542388653]
ディープラーニング(DL)アルゴリズムは、学術的、産業的にも重くなっている。
セグメンテーションフレームワークにECGの検出とデライン化を組み込むことにより、低解釈タスクにDLをうまく適用できることを実証する。
このモデルは、PhyloNetのQTデータベースを使用して、105個の増幅ECG記録から訓練された。
論文 参考訳(メタデータ) (2020-05-11T16:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。