論文の概要: Text Knows What, Tables Know When: Clinical Timeline Reconstruction via Retrieval-Augmented Multimodal Alignment
- arxiv url: http://arxiv.org/abs/2605.15168v1
- Date: Thu, 14 May 2026 17:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:35.003075
- Title: Text Knows What, Tables Know When: Clinical Timeline Reconstruction via Retrieval-Augmented Multimodal Alignment
- Title(参考訳): 検索型マルチモーダルアライメントによる臨床タイムライン再構築
- Authors: Sayantan Kumar, Shahriar Noroozizadeh, Juyong Kim, Jeremy C. Weiss,
- Abstract要約: 本稿では,テキストから抽出した絶対的臨床タイムラインの時間的精度を向上させるために,検索強化型マルチモーダルアライメントフレームワークを提案する。
提案手法は,グラフベースのマルチステッププロセスとしてタイムライン再構成を定式化する。
- 参考スコア(独自算出の注目度): 4.42383617731229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reconstructing precise clinical timelines is essential for modeling patient trajectories and forecasting risk in complex, heterogeneous conditions like sepsis. While unstructured clinical narratives offer semantically rich and contextually complete descriptions of a patient's course, they often lack temporal precision and contain ambiguous event timing. Conversely, structured electronic health record (EHR) data provides precise temporal anchors but misses a substantial portion of clinically meaningful events. We introduce a retrieval-augmented multimodal alignment framework that bridges this gap to improve the temporal precision of absolute clinical timelines extracted from text. Our approach formulates timeline reconstruction as a graph-based multistep process: it first extracts central anchor events from narratives to build an initial temporal scaffold, places non-central events relative to this backbone, and then calibrates the timeline using retrieved structured EHR rows as external temporal evidence. Evaluated using instruction-tuned large language models on the i2m4 benchmark spanning MIMIC-III and MIMIC-IV, our multimodal pipeline consistently improves absolute timestamp accuracy (AULTC) and improves temporal concordance across nearly all evaluated models over unimodal text-only reconstruction, without compromising event match rates. Furthermore, our empirical gap analysis reveals that 34.8% of text-derived events are entirely absent from tabular records, demonstrating that aligning these modalities can produce a more temporally faithful and clinically informative reconstruction of patient trajectories than either source alone.
- Abstract(参考訳): 正確な臨床スケジュールの再構築は、患者の軌跡をモデル化し、敗血症のような複雑で不均一な状況におけるリスクを予測するために不可欠である。
構造化されていない臨床物語は、意味的に豊かで文脈的に患者の経過の完全な記述を提供するが、時間的精度が欠如しており、不明瞭な事象のタイミングを含んでいることが多い。
逆に、構造化された電子健康記録(EHR)データは正確な時間的アンカーを提供するが、臨床的に意味のある事象のかなりの部分を見逃している。
本稿では,テキストから抽出した絶対的臨床タイムラインの時間的精度を向上させるために,このギャップを埋める多モードアライメントフレームワークを提案する。
提案手法は,まず物語から中央アンカーイベントを抽出して初期時間的足場を構築し,このバックボーンに対して非中央イベントを配置し,抽出した構造化ERH列を外部時間的証拠としてタイムラインを校正する。
MIMIC-IIIとMIMIC-IVにまたがるi2m4ベンチマークの命令調整された大規模言語モデルを用いて評価し、我々のマルチモーダルパイプラインは絶対タイムスタンプ精度(AULTC)を一貫して改善し、イベントマッチング率を損なうことなく、ほぼすべての評価モデル間の時間的一致を改善する。
さらに, 実験的ギャップ分析の結果, テキスト由来の事象の34.8%が表層記録から完全に欠落していることが判明した。
関連論文リスト
- Reconstructing Sepsis Trajectories from Clinical Case Reports using LLMs: the Textual Time Series Corpus for Sepsis [7.734726150561087]
臨床症例報告と退院サマリーは、患者遭遇の最も完全かつ正確な要約であり得るが、それらは最終的、すなわち、遭遇後のタイムスタンプである。
我々は,大規模言語モデルを用いた症例報告において,時間的局所的な発見を表現し,抽出し,注釈するパイプラインを構築した。
論文 参考訳(メタデータ) (2025-04-12T03:07:44Z) - CTPD: Cross-Modal Temporal Pattern Discovery for Enhanced Multimodal Electronic Health Records Analysis [50.56875995511431]
マルチモーダルEHRデータから有意な時間的パターンを効率的に抽出するために,CTPD(Cross-Modal Temporal Pattern Discovery)フレームワークを導入する。
提案手法では,時間的セマンティックな埋め込みを生成するためにスロットアテンションを用いて改良された時間的パターン表現を提案する。
論文 参考訳(メタデータ) (2024-11-01T15:54:07Z) - Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Clinical Temporal Relation Extraction with Probabilistic Soft Logic
Regularization and Global Inference [50.029659413650194]
既存のメソッドは、高価な機能エンジニアリングを必要とするか、イベント間のグローバルな依存関係をモデル化できない。
本稿では,確率論的ソフト論理規則化とグローバル推論を用いた新しい臨床時間緩和法を提案する。
論文 参考訳(メタデータ) (2020-12-16T08:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。