論文の概要: ECG-Reasoning-Benchmark: A Benchmark for Evaluating Clinical Reasoning Capabilities in ECG Interpretation
- arxiv url: http://arxiv.org/abs/2603.14326v1
- Date: Sun, 15 Mar 2026 11:09:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.750682
- Title: ECG-Reasoning-Benchmark: A Benchmark for Evaluating Clinical Reasoning Capabilities in ECG Interpretation
- Title(参考訳): ECG-Reasoning-Benchmark:ECG解釈における臨床推論能力の評価ベンチマーク
- Authors: Jungwoo Oh, Hyunseung Chung, Junhee Lee, Min-Gyu Kim, Hangyul Yoon, Ki Seong Lee, Youngchae Lee, Muhan Yeo, Edward Choi,
- Abstract要約: 我々は,17コア心電図診断におけるステップバイステップ推論を評価するために,6,400以上のサンプルからなる新しいマルチターン評価フレームワークを提案する。
最先端モデルに対する包括的評価では,多段階論理推論の実行に重大な障害があることが判明した。
これらの結果は、現在のMLLMが実際の視覚的解釈を回避し、既存の訓練パラダイムに重大な欠陥を露呈し、堅牢で推論中心の医療AIの必要性を強調していることを示している。
- 参考スコア(独自算出の注目度): 14.296134981531337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Multimodal Large Language Models (MLLMs) show promising performance in automated electrocardiogram interpretation, it remains unclear whether they genuinely perform actual step-by-step reasoning or just rely on superficial visual cues. To investigate this, we introduce \textbf{ECG-Reasoning-Benchmark}, a novel multi-turn evaluation framework comprising over 6,400 samples to systematically assess step-by-step reasoning across 17 core ECG diagnoses. Our comprehensive evaluation of state-of-the-art models reveals a critical failure in executing multi-step logical deduction. Although models possess the medical knowledge to retrieve clinical criteria for a diagnosis, they exhibit near-zero success rates (6% Completion) in maintaining a complete reasoning chain, primarily failing to ground the corresponding ECG findings to the actual visual evidence in the ECG signal. These results demonstrate that current MLLMs bypass actual visual interpretation, exposing a critical flaw in existing training paradigms and underscoring the necessity for robust, reasoning-centric medical AI. The code and data are available at https://github.com/Jwoo5/ecg-reasoning-benchmark.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は心電図自動解釈において有望な性能を示すが、実際のステップバイステップ推論を行うか、単に表面的な視覚的手がかりに依存するかは定かではない。
そこで本研究では,17コア心電図診断におけるステップ・バイ・ステップの推論を体系的に評価するための,6,400以上のサンプルからなる新しいマルチターン評価フレームワークである「textbf{ECG-Reasoning-Benchmark}」を紹介する。
最先端モデルに対する包括的評価では,多段階論理推論の実行に重大な障害があることが判明した。
モデルは、診断のための臨床基準を取得するための医療知識を持っているが、完全な推論チェーンを維持する上で、ほぼゼロに近い成功率(6%の完成率)を示し、主にECG信号の実際の視覚的証拠に対応する心電図の発見を基礎づけることに失敗した。
これらの結果は、現在のMLLMが実際の視覚的解釈を回避し、既存の訓練パラダイムに重大な欠陥を露呈し、堅牢で推論中心の医療AIの必要性を強調していることを示している。
コードとデータはhttps://github.com/Jwoo5/ecg-reasoning-benchmarkで公開されている。
関連論文リスト
- Position: Evaluation of ECG Representations Must Be Fixed [1.567009619451362]
本論文は、12段階のECG表現学習における現在のベンチマーク実践は、進歩が信頼でき、臨床的に有意義な目的と整合することを保証するために、修正されるべきである、と論じる。
本研究は、心電図関連エンドポイントの発達とともに、心疾患や患者レベル予測の評価を含むように下流評価を拡大するべきであると論じる。
論文 参考訳(メタデータ) (2026-02-19T16:42:46Z) - UniPACT: A Multimodal Framework for Prognostic Question Answering on Raw ECG and Structured EHR [15.533178197005208]
本稿では,このモダリティギャップを橋渡しする確率的質問に対する統一的な枠組みを提案する。
UniPACTのコアコントリビューションは、数値EHRデータを意味的にリッチなテキストに変換する構造化プロンプト機構である。
総合的なMDS-EDベンチマークで評価し、最先端のAUROCの89.37%を様々な予後タスクで達成した。
論文 参考訳(メタデータ) (2026-01-25T17:35:52Z) - AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - Interpretable Multimodal Zero-Shot ECG Diagnosis via Structured Clinical Knowledge Alignment [10.34278624026891]
ZETAは、臨床知識に合わせて心電図の診断を解釈するために設計されたゼロショットマルチモーダルフレームワークである。
今後の研究を促進するため、キュレートされた観測データセットとコードをリリースする。
論文 参考訳(メタデータ) (2025-10-24T15:09:09Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - CardioRAG: A Retrieval-Augmented Generation Framework for Multimodal Chagas Disease Detection [3.2889108396912974]
チャガス病は世界中で約600万人に影響を及ぼし、チャガス心筋症は最も重篤な合併症である。
血清検査能力が限られている地域では、AI強化心電図(ECG)スクリーニングが重要な診断代替手段となる。
本稿では,大きな言語モデルと解釈可能なECGに基づく臨床特徴を統合した検索拡張生成フレームワークCardioRAGを提案する。
論文 参考訳(メタデータ) (2025-10-02T01:02:04Z) - Signal, Image, or Symbolic: Exploring the Best Input Representation for Electrocardiogram-Language Models Through a Unified Framework [18.95201514457046]
大型言語モデル(LLM)は心電図(ECG)の解釈に応用されている。
心電図-言語モデル(ELMs)は、専門の心電気生理学者をエミュレートし、診断を発行し、波形形態を分析し、寄与要因を特定し、患者固有の行動計画を提案する。
6つの公開データセットと5つの評価指標にまたがる、これらのモダリティに関する最初の包括的なベンチマークを示す。
論文 参考訳(メタデータ) (2025-05-24T19:43:15Z) - GEM: Empowering MLLM for Grounded ECG Understanding with Time Series and Images [44.50428701650495]
GEMは,第1回MLLM統合ECG時系列,第12回リードECG画像,地上および臨床のECG解釈のためのテキストである。
GEMは、3つのコアイノベーションを通じて機能的解析、エビデンス駆動推論、および臨床医のような診断プロセスを可能にする。
基礎心電図理解におけるMLLMの能力を評価するために,臨床動機付けのベンチマークであるグラウンドドECGタスクを提案する。
論文 参考訳(メタデータ) (2025-03-08T05:48:53Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - ECG-DelNet: Delineation of Ambulatory Electrocardiograms with Mixed
Quality Labeling Using Neural Networks [69.25956542388653]
ディープラーニング(DL)アルゴリズムは、学術的、産業的にも重くなっている。
セグメンテーションフレームワークにECGの検出とデライン化を組み込むことにより、低解釈タスクにDLをうまく適用できることを実証する。
このモデルは、PhyloNetのQTデータベースを使用して、105個の増幅ECG記録から訓練された。
論文 参考訳(メタデータ) (2020-05-11T16:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。