論文の概要: Teach Multimodal LLMs to Comprehend Electrocardiographic Images
- arxiv url: http://arxiv.org/abs/2410.19008v1
- Date: Mon, 21 Oct 2024 20:26:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:37:21.941567
- Title: Teach Multimodal LLMs to Comprehend Electrocardiographic Images
- Title(参考訳): 心電図解析のためのTeach Multimodal LLM
- Authors: Ruoqi Liu, Yuelin Bai, Xiang Yue, Ping Zhang,
- Abstract要約: 我々は、100万以上のサンプルからなる総合的なECGイメージインストラクションチューニングデータセットであるECGInstructを紹介する。
また,心電図の理解に適したMLLMであるPULSEを開発した。
実験の結果,PULSEは従来のMLLMよりも15%から30%の精度向上を実現した。
- 参考スコア(独自算出の注目度): 10.577263066644194
- License:
- Abstract: The electrocardiogram (ECG) is an essential non-invasive diagnostic tool for assessing cardiac conditions. Existing automatic interpretation methods suffer from limited generalizability, focusing on a narrow range of cardiac conditions, and typically depend on raw physiological signals, which may not be readily available in resource-limited settings where only printed or digital ECG images are accessible. Recent advancements in multimodal large language models (MLLMs) present promising opportunities for addressing these challenges. However, the application of MLLMs to ECG image interpretation remains challenging due to the lack of instruction tuning datasets and well-established ECG image benchmarks for quantitative evaluation. To address these challenges, we introduce ECGInstruct, a comprehensive ECG image instruction tuning dataset of over one million samples, covering a wide range of ECG-related tasks from diverse data sources. Using ECGInstruct, we develop PULSE, an MLLM tailored for ECG image comprehension. In addition, we curate ECGBench, a new evaluation benchmark covering four key ECG image interpretation tasks across nine different datasets. Our experiments show that PULSE sets a new state-of-the-art, outperforming general MLLMs with an average accuracy improvement of 15% to 30%. This work highlights the potential of PULSE to enhance ECG interpretation in clinical practice.
- Abstract(参考訳): 心電図(ECG)は、心臓の病態を評価するために必要不可欠な非侵襲的診断ツールである。
既存の自動解釈法は、限られた一般化性に悩まされ、限られた心臓状態に焦点が当てられ、典型的には生の生理的信号に依存しており、印刷されたECG画像やデジタルECG画像のみにアクセス可能なリソース限定の環境では利用できない。
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、これらの課題に対処するための有望な機会を提供する。
しかし,命令調律データセットの欠如や,定量的評価のための確立されたECG画像ベンチマークの欠如により,MLLMのECG画像解釈への応用は依然として困難である。
これらの課題に対処するために,多種多様なデータソースから多種多様なECG関連タスクをカバーする,100万以上のサンプルからなる総合的なECG画像チューニングデータセットであるECGInstructを紹介した。
本稿では,ECG 画像理解に適した MLLM である PULSE を開発した。
さらに、9つの異なるデータセットにわたる4つの重要なECG画像解釈タスクをカバーする新しい評価ベンチマークであるECGBenchをキュレートする。
実験の結果,PULSEは従来のMLLMよりも15%から30%の精度向上を実現した。
本研究はPULSEが臨床実習における心電図の解釈を強化する可能性を強調するものである。
関連論文リスト
- High-Accuracy ECG Image Interpretation using Parameter-Efficient LoRA Fine-Tuning with Multimodal LLaMA 3.2 [0.0]
本稿では,マルチモーダルLLaMA 3.2モデルを用いたECG画像解釈の実践的手法について検討する。
パラメータ効率のよい微調整戦略であるLoRA(Lo-Rank Adaptation)を用いて,ECG画像の理解能力の向上を図った。
論文 参考訳(メタデータ) (2025-01-30T17:55:27Z) - CognitionCapturer: Decoding Visual Stimuli From Human EEG Signal With Multimodal Information [61.1904164368732]
脳波信号の表現にマルチモーダルデータを完全に活用する統合フレームワークであるCognitionCapturerを提案する。
具体的には、CognitionCapturerは、各モダリティに対してモダリティエキスパートを訓練し、EEGモダリティからモダリティ情報を抽出する。
このフレームワークは生成モデルの微調整を一切必要とせず、より多くのモダリティを組み込むように拡張することができる。
論文 参考訳(メタデータ) (2024-12-13T16:27:54Z) - De-biased Multimodal Electrocardiogram Analysis [20.290531515033518]
医療分野ではMLLM(Multimodal large language model)がますます採用されている。
これまでの研究では、ECGを複数のテキストタグに変換することでこの問題に対処してきた。
本研究は,射影層を通したLCMへのECGの埋め込みを直接供給する。
論文 参考訳(メタデータ) (2024-11-22T08:35:35Z) - AnyECG: Foundational Models for Electrocardiogram Analysis [36.53693619144332]
心電図(ECG)は急性心臓発作の検出に非常に敏感である。
本稿では,実世界のECGデータからロバストな表現を抽出するための基礎モデルであるAnyECGを紹介する。
異常検出,不整脈検出,不良鉛生成,超長期心電図信号解析などの実験結果から,AnyECGがデータから共通心電図の知識を学習し,各タスクにおける最先端手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-11-17T17:32:58Z) - Electrocardiogram-Language Model for Few-Shot Question Answering with Meta Learning [19.513904491604794]
心電図(ECG)の解釈には専門知識が必要である。
本研究は,数発のECG質問応答のための新しいマルチモーダルメタラーニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T13:48:01Z) - ECG-FM: An Open Electrocardiogram Foundation Model [3.611746032873298]
本稿では,ECG分析のためのオープン基盤モデルであるECG-FMを提案する。
ECG-FMはトランスフォーマーベースのアーキテクチャを採用し、250万のサンプルで事前訓練されている。
文脈情報のコマンドが強靭なパフォーマンス、豊富な事前学習された埋め込み、信頼性のある解釈可能性をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-09T17:06:49Z) - MEIT: Multi-Modal Electrocardiogram Instruction Tuning on Large Language Models for Report Generation [41.324530807795256]
心電図(Electrocardiogram、ECG)は、心臓の状態をモニタリングするための主要な非侵襲的診断ツールである。
最近の研究は心電図データを用いた心臓状態の分類に集中しているが、心電図レポートの生成は見落としている。
LLMとマルチモーダル命令を用いてECGレポート生成に取り組む最初の試みであるMultimodal ECG Instruction Tuning (MEIT) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T23:20:56Z) - Exploring scalable medical image encoders beyond text supervision [42.86944965225041]
言語による事前学習は、画像から意味論的に意味のある特徴を抽出する貴重な方法であることが証明されている。
生体画像エンコーダRAD-DINOについて検討した。
論文 参考訳(メタデータ) (2024-01-19T17:02:17Z) - Automated Cardiovascular Record Retrieval by Multimodal Learning between
Electrocardiogram and Clinical Report [28.608260758775316]
本稿では,Large Language Models (LLM) と Vision-Transformer (ViT) モデルにおける最近のブレークスルーを活用し,ECGの解釈に新たなアプローチを導入する。
入力ECGデータに基づいて,最も類似した症例を自動的に同定する手法を提案する。
本研究は,未開発地域において診断サービスを提供する上で重要な資源となる可能性がある。
論文 参考訳(メタデータ) (2023-04-13T06:32:25Z) - Co-Heterogeneous and Adaptive Segmentation from Multi-Source and
Multi-Phase CT Imaging Data: A Study on Pathological Liver and Lesion
Segmentation [48.504790189796836]
我々は,新しいセグメンテーション戦略,コヘテロジネティック・アダプティブセグメンテーション(CHASe)を提案する。
本稿では,外見に基づく半スーパービジョン,マスクに基づく対向ドメイン適応,擬似ラベルを融合した多目的フレームワークを提案する。
CHASeは4.2% sim 9.4%$の範囲で、病理的な肝臓マスクDice-Sorensen係数をさらに改善することができる。
論文 参考訳(メタデータ) (2020-05-27T06:58:39Z) - ECG-DelNet: Delineation of Ambulatory Electrocardiograms with Mixed
Quality Labeling Using Neural Networks [69.25956542388653]
ディープラーニング(DL)アルゴリズムは、学術的、産業的にも重くなっている。
セグメンテーションフレームワークにECGの検出とデライン化を組み込むことにより、低解釈タスクにDLをうまく適用できることを実証する。
このモデルは、PhyloNetのQTデータベースを使用して、105個の増幅ECG記録から訓練された。
論文 参考訳(メタデータ) (2020-05-11T16:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。