論文の概要: MIMIC-\RNum{4}-Ext-22MCTS: A 22 Millions-Event Temporal Clinical Time-Series Dataset with Relative Timestamp for Risk Prediction
- arxiv url: http://arxiv.org/abs/2505.00827v1
- Date: Thu, 01 May 2025 19:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.816096
- Title: MIMIC-\RNum{4}-Ext-22MCTS: A 22 Millions-Event Temporal Clinical Time-Series Dataset with Relative Timestamp for Risk Prediction
- Title(参考訳): MIMIC-\RNum{4}-Ext-22MCTS: リスク予測のための相対タイムスタンプを用いた2200万件の一時的な臨床時系列データセット
- Authors: Jing Wang, Xing Niu, Juyong Kim, Jie Shen, Tong Zhang, Jeremy C. Weiss,
- Abstract要約: このデータセットは、22,588,586の臨床時系列イベントで構成されている。
よく知られているが構造化されていないMIMIC-IV-Noteから選択された放電サマリー。
本稿では,各アウトレットの要約を,管理可能な小さなテキストチャンクに分割することで機能する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 26.53949431160399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clinical risk prediction based on machine learning algorithms plays a vital role in modern healthcare. A crucial component in developing a reliable prediction model is collecting high-quality time series clinical events. In this work, we release such a dataset that consists of 22,588,586 Clinical Time Series events, which we term MIMIC-\RNum{4}-Ext-22MCTS. Our source data are discharge summaries selected from the well-known yet unstructured MIMIC-IV-Note \cite{Johnson2023-pg}. We then extract clinical events as short text span from the discharge summaries, along with the timestamps of these events as temporal information. The general-purpose MIMIC-IV-Note pose specific challenges for our work: it turns out that the discharge summaries are too lengthy for typical natural language models to process, and the clinical events of interest often are not accompanied with explicit timestamps. Therefore, we propose a new framework that works as follows: 1) we break each discharge summary into manageably small text chunks; 2) we apply contextual BM25 and contextual semantic search to retrieve chunks that have a high potential of containing clinical events; and 3) we carefully design prompts to teach the recently released Llama-3.1-8B \cite{touvron2023llama} model to identify or infer temporal information of the chunks. We show that the obtained dataset is so informative and transparent that standard models fine-tuned on our dataset are achieving significant improvements in healthcare applications. In particular, the BERT model fine-tuned based on our dataset achieves 10\% improvement in accuracy on medical question answering task, and 3\% improvement in clinical trial matching task compared with the classic BERT. The GPT-2 model, fine-tuned on our dataset, produces more clinically reliable results for clinical questions.
- Abstract(参考訳): 機械学習アルゴリズムに基づく臨床リスク予測は、現代医療において重要な役割を果たす。
信頼性のある予測モデルを開発する上で重要な要素は、高品質な時系列臨床イベントの収集である。
本研究では,MIMIC-\RNum{4}-Ext-22MCTSと呼ぶ,22,588,586のクリニカル時系列イベントからなるデータセットをリリースする。
ソースデータは、よく知られたが構造化されていないMIMIC-IV-Note \cite{Johnson2023-pg} から選択された放電サマリーである。
次に, 症状のタイムスタンプを時間情報として抽出し, 臨床症状を退院サマリーから短文として抽出する。
一般的なMIMIC-IV-Noteは、一般的な自然言語モデルでは処理に長すぎること、興味のある臨床イベントには明確なタイムスタンプが伴わないことが判明した。
そこで,本稿では,次のように機能する新しいフレームワークを提案する。
1) 各排出概要を管理可能な小さなテキストチャンクに分割する。
2)臨床イベントを包含する可能性が高いチャンクを検索するために,文脈的BM25と文脈的意味探索を適用した。
3) 最近リリースされたLlama-3.1-8B \cite{touvron2023llama}モデルを使って,チャンクの時間的情報を特定し,推測する。
得られたデータセットは、非常に情報的で透明であるため、私たちのデータセットに微調整された標準モデルは、医療アプリケーションで大幅に改善されている。
特に,本データセットに基づいて微調整したBERTモデルでは,医療質問応答タスクの精度が10倍に向上し,臨床治験マッチングタスクが3倍に向上した。
GPT-2モデルは我々のデータセットを微調整し、臨床上の問題に対してより臨床的に信頼性の高い結果をもたらす。
関連論文リスト
- Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - EMERGE: Enhancing Multimodal Electronic Health Records Predictive Modeling with Retrieval-Augmented Generation [22.94521527609479]
EMERGEはRetrieval-Augmented Generation(RAG)駆動のフレームワークであり、マルチモーダルEHR予測モデリングを強化する。
時系列データと臨床ノートからエンティティを抽出し,LLM(Large Language Models)を誘導し,プロのPrimeKGと整合させる。
抽出した知識は、患者の健康状態のタスク関連サマリーを生成するために使用される。
論文 参考訳(メタデータ) (2024-05-27T10:53:15Z) - Prompting Large Language Models for Zero-Shot Clinical Prediction with
Structured Longitudinal Electronic Health Record Data [7.815738943706123]
大規模言語モデル(LLM)は、伝統的に自然言語処理に向いている。
本研究では, GPT-4 などの LLM の EHR データへの適応性について検討する。
EHRデータの長手性、スパース性、知識を注入した性質に対応するため、本研究は特定の特徴を考慮に入れている。
論文 参考訳(メタデータ) (2024-01-25T20:14:50Z) - Clairvoyance: A Pipeline Toolkit for Medical Time Series [95.22483029602921]
時系列学習は、データ駆動の*クリニカルな意思決定支援のパンとバターである*
Clairvoyanceは、ソフトウェアツールキットとして機能する、統合されたエンドツーエンドのオートMLフレンドリなパイプラインを提案する。
Clairvoyanceは、臨床時系列MLのための包括的で自動化可能なパイプラインの生存可能性を示す最初のものである。
論文 参考訳(メタデータ) (2023-10-28T12:08:03Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Time Associated Meta Learning for Clinical Prediction [78.99422473394029]
本稿では,時間関連メタラーニング(TAML)手法を提案する。
タスク分割後のスパーシリティ問題に対処するため、TAMLは時間情報共有戦略を採用し、正のサンプル数を増やす。
複数の臨床データセットに対するTAMLの有効性を示す。
論文 参考訳(メタデータ) (2023-03-05T03:54:54Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - An efficient representation of chronological events in medical texts [9.118144540451514]
臨床ノートで利用可能な時系列イベントから学習するための体系的手法を提案した。
提案手法は,任意の種類の逐次イベントの非パラメトリック階層表現を生成する。
この手法は、英国で最大の中等医療精神保健 EHR データを用いて開発され、外部で検証された。
論文 参考訳(メタデータ) (2020-10-16T14:54:29Z) - MIA-Prognosis: A Deep Learning Framework to Predict Therapy Response [58.0291320452122]
本稿では,患者の予後と治療反応を予測するための統合型深層学習手法を提案する。
我々は,マルチモーダル非同期時系列分類タスクとして,確率モデリングを定式化する。
我々の予測モデルは、長期生存の観点から、低リスク、高リスクの患者をさらに階層化する可能性がある。
論文 参考訳(メタデータ) (2020-10-08T15:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。