論文の概要: Benchmarking LLM Summaries of Multimodal Clinical Time Series for Remote Monitoring
- arxiv url: http://arxiv.org/abs/2603.01557v1
- Date: Mon, 02 Mar 2026 07:33:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.740185
- Title: Benchmarking LLM Summaries of Multimodal Clinical Time Series for Remote Monitoring
- Title(参考訳): 遠隔モニタリングのためのマルチモーダル臨床時系列のLCMサプライヤーのベンチマーク
- Authors: Aditya Shukla, Yining Yuan, Ben Tamo, Yifei Wang, Micky Nnamdi, Shaun Tan, Jieru Li, Benoit Marteau, Brad Willingham, May Wang,
- Abstract要約: 大規模言語モデル(LLMs)は遠隔治療監視時系列の流動的な臨床要約を生成することができる。
既存の評価指標は主に意味的類似性と言語的品質に重点を置いており、事象レベルの正確性はほとんど測定されていない。
本稿では,TIHM(Technology-Integrated Health Management)-1.5認知症モニタリングデータセットを用いたマルチモーダル時系列要約のためのイベントベース評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.415950855665798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can generate fluent clinical summaries of remote therapeutic monitoring time series. However, it remains unclear whether these narratives faithfully capture clinically significant events, such as sustained abnormalities. Existing evaluation metrics primarily focus on semantic similarity and linguistic quality, leaving event-level correctness largely unmeasured. To address this gap, we introduce an event-based evaluation framework for multimodal time-series summarization using the Technology-Integrated Health Management (TIHM)-1.5 dementia monitoring dataset. Clinically grounded daily events are derived through rule-based abnormal thresholds and temporal persistence criteria. Model-generated summaries are then aligned with these structured facts. Our evaluation protocol measures abnormality recall, duration recall, measurement coverage, and hallucinated event mentions. We benchmark three approaches: zero-shot prompting, statistical prompting, and a vision-based pipeline that uses rendered time-series visualizations. The results reveal a striking decoupling between conventional metrics and clinical event fidelity. Models that achieve high semantic similarity scores often exhibit near-zero abnormality recall. In contrast, the vision-based approach demonstrates the strongest event alignment, achieving 45.7% abnormality recall and 100% duration recall. These findings underscore the importance of event-aware evaluation to ensure reliable clinical time-series summarization.
- Abstract(参考訳): 大規模言語モデル(LLMs)は遠隔治療監視時系列の流動的な臨床要約を生成することができる。
しかし、これらの物語が持続的な異常などの臨床的に重要な出来事を忠実に捉えているかどうかは不明である。
既存の評価指標は主に意味的類似性と言語的品質に重点を置いており、事象レベルの正確性はほとんど測定されていない。
このギャップに対処するために、Technology-Integrated Health Management (TIHM)-1.5 dementia monitoring datasetを用いたマルチモーダル時系列要約のためのイベントベース評価フレームワークを導入する。
臨床に根ざした日々の出来事は、規則に基づく異常しきい値と時間的持続基準によって引き起こされる。
モデル生成サマリーは、これらの構造化事実と整合する。
評価プロトコルは, 異常リコール, 持続リコール, 測定範囲, 幻覚事象の言及を計測する。
我々は、ゼロショットプロンプト、統計プロンプト、レンダリングされた時系列視覚化を使用するビジョンベースのパイプラインの3つのアプローチをベンチマークした。
その結果,従来の測定値と臨床イベントの忠実度との間に顕著な疎結合が認められた。
意味的類似度スコアの高いモデルは、ほぼゼロに近い異常リコールを示すことが多い。
対照的に、視覚に基づくアプローチは、最も強いイベントアライメントを示し、45.7%の異常リコールと100%の持続リコールを達成した。
これらの知見は、信頼性の高い臨床時系列要約を実現するための事象認識評価の重要性を浮き彫りにした。
関連論文リスト
- Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - Time-to-Event Transformer to Capture Timing Attention of Events in EHR Time Series [15.049813932448112]
LITTは、仮想相対タイムライン上のシーケンシャルイベントの一時的なアライメントを可能にする、新しいTiming-Transformerアーキテクチャである。
乳がん患者3,276人の実世界の経時的EHRデータから,その解釈可能性と効果を検証した。
論文 参考訳(メタデータ) (2026-02-11T00:13:08Z) - Mind the Missing: Variable-Aware Representation Learning for Irregular EHR Time Series using Large Language Models [0.6554326244334866]
VITAL(VITAL)は、不規則にサンプリングされた生理的時系列から学習するのに適した可変対応大規模言語モデル(LLM)ベースのフレームワークである。
言語空間に重要な記号をリプログラミングし、LLMが時間的文脈を捉え、欠落した値に対する推論を可能にする。
高レベルの欠如の下では堅牢なパフォーマンスを維持しており、これは実際の臨床シナリオでよく見られる。
論文 参考訳(メタデータ) (2025-09-26T09:44:16Z) - Evaluation of Stress Detection as Time Series Events -- A Novel Window-Based F1-Metric [3.0936815707071403]
ウェアラブルデバイスによるストレスモニタリングなどのアプリケーションには,時系列評価が不可欠である。
F1のような標準メトリクスは、実世界の不均衡なデータセットでモデルパフォーマンスを誤って表現することが多い。
時間耐性を組み込んだウィンドウベースのF1メトリック(F1$_w$)を導入する。
論文 参考訳(メタデータ) (2025-09-03T11:55:28Z) - A Large-Language Model Framework for Relative Timeline Extraction from PubMed Case Reports [10.869574822060553]
本稿では,ケースレポートを時系列化されたテキストイベントとタイムスタンプのペアに変換するシステムを提案する。
この研究は、時間分析にPMOAコーパスを活用するためのベンチマークとして機能する可能性がある。
論文 参考訳(メタデータ) (2025-04-15T20:54:19Z) - ProMedTS: A Self-Supervised, Prompt-Guided Multimodal Approach for Integrating Medical Text and Time Series [27.70300880284899]
大規模言語モデル (LLM) は、視覚の細かいタスクにおいて顕著な性能を示してきたが、医療分野におけるそれらの応用はいまだに探索されていない。
ProMedTSは、データ型を統一するために、プロンプト誘導学習を利用する、新しい自己教師型マルチモーダルフレームワークである。
実世界のデータセットを用いた診断タスクにおけるProMedTSの評価を行い,本手法が常に最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-02-19T07:56:48Z) - CTPD: Cross-Modal Temporal Pattern Discovery for Enhanced Multimodal Electronic Health Records Analysis [50.56875995511431]
マルチモーダルEHRデータから有意な時間的パターンを効率的に抽出するために,CTPD(Cross-Modal Temporal Pattern Discovery)フレームワークを導入する。
提案手法では,時間的セマンティックな埋め込みを生成するためにスロットアテンションを用いて改良された時間的パターン表現を提案する。
論文 参考訳(メタデータ) (2024-11-01T15:54:07Z) - Deep State-Space Generative Model For Correlated Time-to-Event Predictions [54.3637600983898]
そこで本研究では,様々な種類の臨床イベント間の相互作用を捉えるために,潜伏状態空間生成モデルを提案する。
また,死亡率と臓器不全の関連性について有意な知見が得られた。
論文 参考訳(メタデータ) (2024-07-28T02:42:36Z) - CenTime: Event-Conditional Modelling of Censoring in Survival Analysis [49.44664144472712]
CenTimeは、イベントへの時間を直接見積もる、サバイバル分析の新しいアプローチである。
本手法は,非検閲データが少ない場合でも,堅牢なイベント条件検閲機構を特徴とする。
以上の結果から,CenTimeは同等の性能を維持しつつ,死までの時間を予測する上で,最先端のパフォーマンスを提供することがわかった。
論文 参考訳(メタデータ) (2023-09-07T17:07:33Z) - Multi-view Integration Learning for Irregularly-sampled Clinical Time
Series [1.9639092030562577]
不規則な時系列データからの多視点機能統合学習をインピーダンスフリーで自己保持機構で提案する。
我々は,観測値の関連性,指標の欠如,連続観測間の時間間隔を同時に学習する。
我々は,マルチビュー観察における相互関係の表現学習を促進するために,注意に基づくデコーダを欠落値インプタとして構築する。
論文 参考訳(メタデータ) (2021-01-25T10:02:50Z) - MIA-Prognosis: A Deep Learning Framework to Predict Therapy Response [58.0291320452122]
本稿では,患者の予後と治療反応を予測するための統合型深層学習手法を提案する。
我々は,マルチモーダル非同期時系列分類タスクとして,確率モデリングを定式化する。
我々の予測モデルは、長期生存の観点から、低リスク、高リスクの患者をさらに階層化する可能性がある。
論文 参考訳(メタデータ) (2020-10-08T15:30:17Z) - Predicting Parkinson's Disease with Multimodal Irregularly Collected
Longitudinal Smartphone Data [75.23250968928578]
パーキンソン病は神経疾患であり、高齢者に多い。
伝統的に病気を診断する方法は、一連の活動テストの品質に関する個人的主観的臨床評価に依存している。
そこで本研究では,スマートフォンが収集した生の行動データを用いて,パーキンソン病を予測するための時系列に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-25T01:50:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。