論文の概要: Signal, Image, or Symbolic: Exploring the Best Input Representation for Electrocardiogram-Language Models Through a Unified Framework
- arxiv url: http://arxiv.org/abs/2505.18847v1
- Date: Sat, 24 May 2025 19:43:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.693538
- Title: Signal, Image, or Symbolic: Exploring the Best Input Representation for Electrocardiogram-Language Models Through a Unified Framework
- Title(参考訳): 信号, 画像, シンボリック:統一的枠組みによる心電図言語モデルのための最良の入力表現の探索
- Authors: William Han, Chaojing Duan, Zhepeng Cen, Yihang Yao, Xiaoyu Song, Atharva Mhaskar, Dylan Leong, Michael A. Rosenberg, Emerson Liu, Ding Zhao,
- Abstract要約: 大型言語モデル(LLM)は心電図(ECG)の解釈に応用されている。
心電図-言語モデル(ELMs)は、専門の心電気生理学者をエミュレートし、診断を発行し、波形形態を分析し、寄与要因を特定し、患者固有の行動計画を提案する。
6つの公開データセットと5つの評価指標にまたがる、これらのモダリティに関する最初の包括的なベンチマークを示す。
- 参考スコア(独自算出の注目度): 18.95201514457046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances have increasingly applied large language models (LLMs) to electrocardiogram (ECG) interpretation, giving rise to Electrocardiogram-Language Models (ELMs). Conditioned on an ECG and a textual query, an ELM autoregressively generates a free-form textual response. Unlike traditional classification-based systems, ELMs emulate expert cardiac electrophysiologists by issuing diagnoses, analyzing waveform morphology, identifying contributing factors, and proposing patient-specific action plans. To realize this potential, researchers are curating instruction-tuning datasets that pair ECGs with textual dialogues and are training ELMs on these resources. Yet before scaling ELMs further, there is a fundamental question yet to be explored: What is the most effective ECG input representation? In recent works, three candidate representations have emerged-raw time-series signals, rendered images, and discretized symbolic sequences. We present the first comprehensive benchmark of these modalities across 6 public datasets and 5 evaluation metrics. We find symbolic representations achieve the greatest number of statistically significant wins over both signal and image inputs. We further ablate the LLM backbone, ECG duration, and token budget, and we evaluate robustness to signal perturbations. We hope that our findings offer clear guidance for selecting input representations when developing the next generation of ELMs.
- Abstract(参考訳): 近年, 大型言語モデル(LLM)を心電図(ECG)の解釈に適用し, 心電図・言語モデル(ELM)の開発が進んでいる。
ECGとテキストクエリに条件付きで、EMMは自動回帰して自由形式のテキスト応答を生成する。
従来の分類に基づくシステムとは異なり、EMMは専門の心電気生理学者をエミュレートし、診断を発行し、波形形態を分析し、寄与要因を特定し、患者固有の行動計画を提案している。
この可能性を実現するために、研究者たちは、ECGとテキスト対話を組み合わせた命令チューニングデータセットをキュレーションし、これらのリソース上でEMMをトレーニングしている。
もっとも効果的なECG入力表現は何か?
最近の研究では、3つの候補表現が出現した。
6つの公開データセットと5つの評価指標にまたがる、これらのモダリティに関する最初の包括的なベンチマークを示す。
シンボル表現は,信号入力と画像入力の両方に対して,統計的に有意な勝利数を達成する。
さらに,LLMバックボーン,ECG持続時間,トークン予算を短縮し,信号摂動に対するロバスト性を評価する。
我々は,次世代のEMMを開発する際に,入力表現を選択するための明確なガイダンスを提供することを期待している。
関連論文リスト
- BrainOmni: A Brain Foundation Model for Unified EEG and MEG Signals [50.76802709706976]
異種脳波とMEG記録を対象とする脳基礎モデルBrain Omniを提案する。
多様なデータソースを統一するために、脳の活動を離散表現に定量化する最初のトークンであるBrainTokenizerを紹介します。
EEGの合計1,997時間、MEGデータの656時間は、事前トレーニングのために公開されているソースからキュレーションされ、標準化されている。
論文 参考訳(メタデータ) (2025-05-18T14:07:14Z) - GEM: Empowering MLLM for Grounded ECG Understanding with Time Series and Images [43.65650710265957]
GEMは,第1回MLLM統合ECG時系列,第12回リードECG画像,地上および臨床のECG解釈のためのテキストである。
GEMは、3つのコアイノベーションを通じて機能的解析、エビデンス駆動推論、および臨床医のような診断プロセスを可能にする。
基礎心電図理解におけるMLLMの能力を評価するために,臨床動機付けのベンチマークであるグラウンドドECGタスクを提案する。
論文 参考訳(メタデータ) (2025-03-08T05:48:53Z) - CognitionCapturer: Decoding Visual Stimuli From Human EEG Signal With Multimodal Information [61.1904164368732]
脳波信号の表現にマルチモーダルデータを完全に活用する統合フレームワークであるCognitionCapturerを提案する。
具体的には、CognitionCapturerは、各モダリティに対してモダリティエキスパートを訓練し、EEGモダリティからモダリティ情報を抽出する。
このフレームワークは生成モデルの微調整を一切必要とせず、より多くのモダリティを組み込むように拡張することができる。
論文 参考訳(メタデータ) (2024-12-13T16:27:54Z) - ECG Semantic Integrator (ESI): A Foundation ECG Model Pretrained with LLM-Enhanced Cardiological Text [14.06147507373525]
本研究は,12誘導ECG信号の学習表現の品質とロバスト性の向上を目的とした,新しいマルチモーダルコントラスト保持フレームワークを提案する。
私たちのフレームワークは、Cardio Query Assistant(CQA)とECG Semantics Integrator(ESI)の2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2024-05-26T06:45:39Z) - MEIT: Multi-Modal Electrocardiogram Instruction Tuning on Large Language Models for Report Generation [41.324530807795256]
心電図(Electrocardiogram、ECG)は、心臓の状態をモニタリングするための主要な非侵襲的診断ツールである。
最近の研究は心電図データを用いた心臓状態の分類に集中しているが、心電図レポートの生成は見落としている。
LLMとマルチモーダル命令を用いてECGレポート生成に取り組む最初の試みであるMultimodal ECG Instruction Tuning (MEIT) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T23:20:56Z) - DGSD: Dynamical Graph Self-Distillation for EEG-Based Auditory Spatial
Attention Detection [49.196182908826565]
AAD(Auditory Attention Detection)は、マルチスピーカー環境で脳信号からターゲット話者を検出することを目的としている。
現在のアプローチは主に、画像のようなユークリッドデータを処理するために設計された従来の畳み込みニューラルネットワークに依存している。
本稿では、入力として音声刺激を必要としないAADのための動的グラフ自己蒸留(DGSD)手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T13:43:46Z) - Text-to-ECG: 12-Lead Electrocardiogram Synthesis conditioned on Clinical
Text Reports [6.659609788411503]
本稿では,ECG出力を生成するためにテキスト入力を使用するテキスト・ツー・ECGタスクを提案する。
本稿では,12個の心電図を合成する自動回帰生成モデルAuto-TTEを提案する。
論文 参考訳(メタデータ) (2023-03-09T11:58:38Z) - Learning ECG Representations based on Manipulated Temporal-Spatial
Reverse Detection [11.615287369669971]
本稿では,ECG表現を学習する上で,単純だが効果的な手法を提案する。
ECGの時間的特性と空間的特性にインスパイアされ、元の信号を水平に、垂直に、そして水平に、そして垂直に、それぞれ反転させる。
その結果,本手法で学習したECG表現は,下流タスクにおいて顕著な性能を示すことがわかった。
論文 参考訳(メタデータ) (2022-02-25T02:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。