Fugu-MT 論文翻訳(概要): Teach Multimodal LLMs to Comprehend Electrocardiographic Images

論文の概要: Teach Multimodal LLMs to Comprehend Electrocardiographic Images

arxiv url: http://arxiv.org/abs/2410.19008v1
Date: Mon, 21 Oct 2024 20:26:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.106732
Title: Teach Multimodal LLMs to Comprehend Electrocardiographic Images
Title（参考訳）: 心電図解析のためのTeach Multimodal LLM
Authors: Ruoqi Liu, Yuelin Bai, Xiang Yue, Ping Zhang,
Abstract要約: 我々は、100万以上のサンプルからなる総合的なECGイメージインストラクションチューニングデータセットであるECGInstructを紹介する。また,心電図の理解に適したMLLMであるPULSEを開発した。実験の結果,PULSEは従来のMLLMよりも15%から30%の精度向上を実現した。
参考スコア（独自算出の注目度）: 10.577263066644194
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The electrocardiogram (ECG) is an essential non-invasive diagnostic tool for assessing cardiac conditions. Existing automatic interpretation methods suffer from limited generalizability, focusing on a narrow range of cardiac conditions, and typically depend on raw physiological signals, which may not be readily available in resource-limited settings where only printed or digital ECG images are accessible. Recent advancements in multimodal large language models (MLLMs) present promising opportunities for addressing these challenges. However, the application of MLLMs to ECG image interpretation remains challenging due to the lack of instruction tuning datasets and well-established ECG image benchmarks for quantitative evaluation. To address these challenges, we introduce ECGInstruct, a comprehensive ECG image instruction tuning dataset of over one million samples, covering a wide range of ECG-related tasks from diverse data sources. Using ECGInstruct, we develop PULSE, an MLLM tailored for ECG image comprehension. In addition, we curate ECGBench, a new evaluation benchmark covering four key ECG image interpretation tasks across nine different datasets. Our experiments show that PULSE sets a new state-of-the-art, outperforming general MLLMs with an average accuracy improvement of 15% to 30%. This work highlights the potential of PULSE to enhance ECG interpretation in clinical practice.
Abstract（参考訳）: 心電図(ECG)は、心臓の病態を評価するために必要不可欠な非侵襲的診断ツールである。既存の自動解釈法は、限られた一般化性に悩まされ、限られた心臓状態に焦点が当てられ、典型的には生の生理的信号に依存しており、印刷されたECG画像やデジタルECG画像のみにアクセス可能なリソース限定の環境では利用できない。マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、これらの課題に対処するための有望な機会を提供する。しかし,命令調律データセットの欠如や,定量的評価のための確立されたECG画像ベンチマークの欠如により,MLLMのECG画像解釈への応用は依然として困難である。これらの課題に対処するために,多種多様なデータソースから多種多様なECG関連タスクをカバーする,100万以上のサンプルからなる総合的なECG画像チューニングデータセットであるECGInstructを紹介した。本稿では,ECG 画像理解に適した MLLM である PULSE を開発した。さらに、9つの異なるデータセットにわたる4つの重要なECG画像解釈タスクをカバーする新しい評価ベンチマークであるECGBenchをキュレートする。実験の結果,PULSEは従来のMLLMよりも15%から30%の精度向上を実現した。本研究はPULSEが臨床実習における心電図の解釈を強化する可能性を強調するものである。

関連論文リスト

GEM: Empowering MLLM for Grounded ECG Understanding with Time Series and Images [43.65650710265957]
GEMは,第1回MLLM統合ECG時系列,第12回リードECG画像,地上および臨床のECG解釈のためのテキストである。 GEMは、3つのコアイノベーションを通じて機能的解析、エビデンス駆動推論、および臨床医のような診断プロセスを可能にする。基礎心電図理解におけるMLLMの能力を評価するために,臨床動機付けのベンチマークであるグラウンドドECGタスクを提案する。
論文参考訳（メタデータ） (2025-03-08T05:48:53Z)
Comparing Deep Neural Network for Multi-Label ECG Diagnosis From Scanned ECG [1.2499537119440243]
我々は、スキャンされたECGデータセット上で、AlexNet、VGG、ResNet、Vision Transformerを含む複数のディープニューラルネットワークアーキテクチャの性能を評価する。比較分析では, モデル精度, 画像アーチファクトの堅牢性, 各種ECG条件における一般化可能性について検討した。この結果は各アーキテクチャの長所と短所を強調し、画像ベースの心電図診断の実現可能性に関する洞察を提供する。
論文参考訳（メタデータ） (2025-02-19T02:56:27Z)
High-Accuracy ECG Image Interpretation using Parameter-Efficient LoRA Fine-Tuning with Multimodal LLaMA 3.2 [0.0]
本稿では,マルチモーダルLLaMA 3.2モデルを用いたECG画像解釈の実践的手法について検討する。パラメータ効率のよい微調整戦略であるLoRA(Lo-Rank Adaptation)を用いて,ECG画像の理解能力の向上を図った。
論文参考訳（メタデータ） (2025-01-30T17:55:27Z)
CognitionCapturer: Decoding Visual Stimuli From Human EEG Signal With Multimodal Information [61.1904164368732]
脳波信号の表現にマルチモーダルデータを完全に活用する統合フレームワークであるCognitionCapturerを提案する。具体的には、CognitionCapturerは、各モダリティに対してモダリティエキスパートを訓練し、EEGモダリティからモダリティ情報を抽出する。このフレームワークは生成モデルの微調整を一切必要とせず、より多くのモダリティを組み込むように拡張することができる。
論文参考訳（メタデータ） (2024-12-13T16:27:54Z)
De-biased Multimodal Electrocardiogram Analysis [20.290531515033518]
医療分野ではMLLM(Multimodal large language model)がますます採用されている。これまでの研究では、ECGを複数のテキストタグに変換することでこの問題に対処してきた。本研究は,射影層を通したLCMへのECGの埋め込みを直接供給する。
論文参考訳（メタデータ） (2024-11-22T08:35:35Z)
Electrocardiogram-Language Model for Few-Shot Question Answering with Meta Learning [19.513904491604794]
心電図(ECG)の解釈には専門知識が必要である。本研究は,数発のECG質問応答のための新しいマルチモーダルメタラーニング手法を提案する。
論文参考訳（メタデータ） (2024-10-18T13:48:01Z)
Self-supervised inter-intra period-aware ECG representation learning for detecting atrial fibrillation [41.82319894067087]
そこで本研究では,周期型ECG表現学習手法を提案する。心房細動患者の心電図ではRR間隔の不規則性やP波の欠如を考慮し, 経時的および経時的表現のための特定の事前訓練タスクを開発する。本手法は,発作/持続性心房細動検出のためのBTCHデータセット,textiti., 0.953/0.996におけるAUCの顕著な性能を示す。
論文参考訳（メタデータ） (2024-10-08T10:03:52Z)
ECG-FM: An Open Electrocardiogram Foundation Model [3.611746032873298]
本稿では,ECG分析のためのオープン基盤モデルであるECG-FMを提案する。 ECG-FMはトランスフォーマーベースのアーキテクチャを採用し、250万のサンプルで事前訓練されている。文脈情報のコマンドが強靭なパフォーマンス、豊富な事前学習された埋め込み、信頼性のある解釈可能性をもたらすことを示す。
論文参考訳（メタデータ） (2024-08-09T17:06:49Z)
VizECGNet: Visual ECG Image Network for Cardiovascular Diseases Classification with Multi-Modal Training and Knowledge Distillation [0.7405975743268344]
実際には、ECGデータはデジタル化された信号または印刷された画像として格納される。本稿では,複数の心血管疾患の予後を決定するために,心電図のみを用いたVizECGNetを提案する。
論文参考訳（メタデータ） (2024-08-06T01:34:43Z)
MEIT: Multi-Modal Electrocardiogram Instruction Tuning on Large Language Models for Report Generation [41.324530807795256]
心電図(Electrocardiogram、ECG)は、心臓の状態をモニタリングするための主要な非侵襲的診断ツールである。最近の研究は心電図データを用いた心臓状態の分類に集中しているが、心電図レポートの生成は見落としている。 LLMとマルチモーダル命令を用いてECGレポート生成に取り組む最初の試みであるMultimodal ECG Instruction Tuning (MEIT) フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-07T23:20:56Z)
RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text Supervision [44.00149519249467]
言語による事前学習は、画像から意味論的に意味のある特徴を抽出する貴重な方法であることが証明されている。生体画像エンコーダRAD-DINOについて検討した。
論文参考訳（メタデータ） (2024-01-19T17:02:17Z)
LOTUS: Learning to Optimize Task-based US representations [39.81131738128329]
超音波画像における臓器の解剖学的セグメンテーションは多くの臨床応用に不可欠である。既存のディープニューラルネットワークは、臨床的に許容できるパフォーマンスを達成するために、トレーニングのために大量のラベル付きデータを必要とする。本稿では,タスクベース超音速画像表現を最適化する学習手法を提案する。
論文参考訳（メタデータ） (2023-07-29T16:29:39Z)
Automated Cardiovascular Record Retrieval by Multimodal Learning between Electrocardiogram and Clinical Report [28.608260758775316]
本稿では,Large Language Models (LLM) と Vision-Transformer (ViT) モデルにおける最近のブレークスルーを活用し,ECGの解釈に新たなアプローチを導入する。入力ECGデータに基づいて,最も類似した症例を自動的に同定する手法を提案する。本研究は,未開発地域において診断サービスを提供する上で重要な資源となる可能性がある。
論文参考訳（メタデータ） (2023-04-13T06:32:25Z)
Co-Heterogeneous and Adaptive Segmentation from Multi-Source and Multi-Phase CT Imaging Data: A Study on Pathological Liver and Lesion Segmentation [48.504790189796836]
我々は,新しいセグメンテーション戦略,コヘテロジネティック・アダプティブセグメンテーション(CHASe)を提案する。本稿では,外見に基づく半スーパービジョン,マスクに基づく対向ドメイン適応,擬似ラベルを融合した多目的フレームワークを提案する。 CHASeは4.2% sim 9.4%$の範囲で、病理的な肝臓マスクDice-Sorensen係数をさらに改善することができる。
論文参考訳（メタデータ） (2020-05-27T06:58:39Z)
ECG-DelNet: Delineation of Ambulatory Electrocardiograms with Mixed Quality Labeling Using Neural Networks [69.25956542388653]
ディープラーニング(DL)アルゴリズムは、学術的、産業的にも重くなっている。セグメンテーションフレームワークにECGの検出とデライン化を組み込むことにより、低解釈タスクにDLをうまく適用できることを実証する。このモデルは、PhyloNetのQTデータベースを使用して、105個の増幅ECG記録から訓練された。
論文参考訳（メタデータ） (2020-05-11T16:29:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。