論文の概要: How Well Do Multimodal Models Reason on ECG Signals?
- arxiv url: http://arxiv.org/abs/2603.00312v1
- Date: Fri, 27 Feb 2026 21:04:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.140325
- Title: How Well Do Multimodal Models Reason on ECG Signals?
- Title(参考訳): マルチモーダルモデルと心電図信号の関係
- Authors: Maxwell A. Xu, Harish Haresumadram, Catherine W. Liu, Patrick Langer, Jathurshan Pradeepkumar, Wanting Mao, Sunita J. Ferns, Aradhana Verma, Jimeng Sun, Paul Schmiedmayer, Xin Liu, Daniel McDuff, Emily B. Fox, James M. Rehg,
- Abstract要約: 本稿では、ECG信号の推論を評価するための再現可能なフレームワークを提案する。
推論トレースに記述された時間構造を実証的に検証するために,エージェントフレームワークを用いてコードを生成する。
この二重検証手法は「真の」推論能力のスケーラブルな評価を可能にする。
- 参考スコア(独自算出の注目度): 36.281141199783825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While multimodal large language models offer a promising solution to the "black box" nature of health AI by generating interpretable reasoning traces, verifying the validity of these traces remains a critical challenge. Existing evaluation methods are either unscalable, relying on manual clinician review, or superficial, utilizing proxy metrics (e.g. QA) that fail to capture the semantic correctness of clinical logic. In this work, we introduce a reproducible framework for evaluating reasoning in ECG signals. We propose decomposing reasoning into two distinct, components: (i) Perception, the accurate identification of patterns within the raw signal, and (ii) Deduction, the logical application of domain knowledge to those patterns. To evaluate Perception, we employ an agentic framework that generates code to empirically verify the temporal structures described in the reasoning trace. To evaluate Deduction, we measure the alignment of the model's logic against a structured database of established clinical criteria in a retrieval-based approach. This dual-verification method enables the scalable assessment of "true" reasoning capabilities.
- Abstract(参考訳): マルチモーダルな大規模言語モデルは、解釈可能な推論トレースを生成することによって、健康AIの「ブラックボックス」という性質に対する有望な解決策を提供するが、これらのトレースの有効性を検証することは依然として重要な課題である。
既存の評価手法は、手動臨床検査に頼っているか、あるいは、臨床論理のセマンティックな正当性を捉えるのに失敗したプロキシメトリクス(例えばQA)を利用するかのどちらかである。
本稿では,ECG信号の推論を評価するための再現可能なフレームワークを提案する。
推論を2つの異なるコンポーネントに分解することを提案する。
一 知覚、生信号内のパターンの正確な識別、及び
(二)これらのパターンに対するドメイン知識の論理的応用。
パーセプションを評価するために,推論トレースに記述された時間構造を実証的に検証するために,コードを生成するエージェントフレームワークを用いる。
Deductionを評価するために,既存の臨床基準の構造化データベースに対するモデルロジックのアライメントを検索ベースで測定する。
この二重検証手法は「真の」推論能力のスケーラブルな評価を可能にする。
関連論文リスト
- NeuroSymb-MRG: Differentiable Abductive Reasoning with Active Uncertainty Minimization for Radiology Report Generation [17.916502111955456]
NeuroSymb-MRGは,NeuroSymbolic abductive reasoningと能動的不確実性最小化を統合し,構造的,臨床的根拠のある報告を生成する統合フレームワークである。
このシステムは、画像の特徴を確率論的臨床概念にマッピングし、異なる論理ベースの推論チェーンを構成し、それらのチェーンをテンプレート付き節にデコードし、検索と制約付き言語モデル編集を通じてテキスト出力を洗練する。
論文 参考訳(メタデータ) (2026-03-02T11:31:30Z) - Diagnosing Pathological Chain-of-Thought in Reasoning Models [2.8521161475937675]
チェーン・オブ・シンクレット(CoT)推論は現代のLLMアーキテクチャの基本である。
我々は, ポストホック合理化, エンコード推論, 内在的推論の3つの異なる病態を同定した。
我々の研究は、CoTの病態を評価するための実用的なツールキットを提供し、トレーニング時のモニタリングに直接的な意味を持つ。
論文 参考訳(メタデータ) (2026-02-14T21:53:47Z) - Pushing the Boundaries of Natural Reasoning: Interleaved Bonus from Formal-Logic Verification [49.506412445511934]
大きな言語モデル(LLM)は目覚ましい能力を示すが、その次は論理的不整合と報奨ハックを生み出す。
本稿では,自然言語生成プロセスと形式的記号的検証を動的にインターリーブする形式論理検証誘導フレームワークを提案する。
我々はこのフレームワークを,形式論理検証誘導制御による微調整とポリシー最適化の相乗効果を生かした,新しい2段階のトレーニングパイプラインを通じて運用する。
論文 参考訳(メタデータ) (2026-01-30T07:01:25Z) - AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - MedCEG: Reinforcing Verifiable Medical Reasoning with Critical Evidence Graph [17.320322032287894]
MedCEGは医療言語モデルに臨床的に有効な推論経路を付加するフレームワークである。
推論プロセスの指針として,臨床推論手順の見直しを紹介する。
実験結果から,MedCEGは臨床的に妥当な推論鎖を産生しながら,既存の方法を上回る性能を示した。
論文 参考訳(メタデータ) (2025-12-15T16:38:46Z) - Adaptive Diagnostic Reasoning Framework for Pathology with Multimodal Large Language Models [34.28963665009494]
本稿では,自己学習パラダイムを確立するための解釈可能なフレームワークRECAP-PATHを提案する。
既成のマルチモーダルな大規模言語モデルから、受動的パターン認識からエビデンスにリンクされた診断推論へと移行する。
この自己学習アプローチでは、小さなラベル付きセットのみを必要とし、がん診断を生成するためのホワイトボックスアクセスやウェイト更新は不要である。
論文 参考訳(メタデータ) (2025-11-15T03:06:59Z) - AGIR: Assessing 3D Gait Impairment with Reasoning based on LLMs [0.0]
歩行障害は、神経変性疾患の早期診断、疾患モニタリング、治療評価において重要な役割を果たす。
近年のディープラーニングベースのアプローチは、分類精度を一貫して改善しているが、解釈可能性に欠けることが多い。
本稿では、事前訓練されたVQ-VAEモーショントークンライザと、一対のモーショントークン上で微調整されたLarge Language Model(LLM)からなる新しいパイプラインであるAGIRを紹介する。
論文 参考訳(メタデータ) (2025-03-23T17:12:16Z) - Pitfalls of topology-aware image segmentation [81.19923502845441]
我々は、不適切な接続選択、見過ごされたトポロジカルアーティファクト、評価指標の不適切な使用を含むモデル評価における致命的な落とし穴を同定する。
本稿では,トポロジを意識した医用画像分割手法の公正かつ堅牢な評価基準を確立するための,行動可能なレコメンデーションセットを提案する。
論文 参考訳(メタデータ) (2024-12-19T08:11:42Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。