論文の概要: The CRITICAL Records Integrated Standardization Pipeline (CRISP): End-to-End Processing of Large-scale Multi-institutional OMOP CDM Data
- arxiv url: http://arxiv.org/abs/2509.08247v1
- Date: Wed, 10 Sep 2025 03:06:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.295639
- Title: The CRITICAL Records Integrated Standardization Pipeline (CRISP): End-to-End Processing of Large-scale Multi-institutional OMOP CDM Data
- Title(参考訳): CRISP:大規模多施設間OMOP CDMデータのエンドツーエンド処理
- Authors: Xiaolong Luo, Michael Lingzhi Li,
- Abstract要約: このデータセットは、地理的に多様な4つのCTSA機関にわたる371,365人の患者の95億件の記録を含んでいる。
CRITICALのユニークな強みは、ICU前、ICU前、ICU後など、フルスペクトルの患者旅行を捉えることである。
この貴重なリソースの可能性を最大限に活用するためにCRISPを提示する。
- 参考スコア(独自算出の注目度): 1.3724581418672368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While existing critical care EHR datasets such as MIMIC and eICU have enabled significant advances in clinical AI research, the CRITICAL dataset opens new frontiers by providing extensive scale and diversity -- containing 1.95 billion records from 371,365 patients across four geographically diverse CTSA institutions. CRITICAL's unique strength lies in capturing full-spectrum patient journeys, including pre-ICU, ICU, and post-ICU encounters across both inpatient and outpatient settings. This multi-institutional, longitudinal perspective creates transformative opportunities for developing generalizable predictive models and advancing health equity research. However, the richness of this multi-site resource introduces substantial complexity in data harmonization, with heterogeneous collection practices and diverse vocabulary usage patterns requiring sophisticated preprocessing approaches. We present CRISP to unlock the full potential of this valuable resource. CRISP systematically transforms raw Observational Medical Outcomes Partnership Common Data Model data into ML-ready datasets through: (1) transparent data quality management with comprehensive audit trails, (2) cross-vocabulary mapping of heterogeneous medical terminologies to unified SNOMED-CT standards, with deduplication and unit standardization, (3) modular architecture with parallel optimization enabling complete dataset processing in $<$1 day even on standard computing hardware, and (4) comprehensive baseline model benchmarks spanning multiple clinical prediction tasks to establish reproducible performance standards. By providing processing pipeline, baseline implementations, and detailed transformation documentation, CRISP saves researchers months of preprocessing effort and democratizes access to large-scale multi-institutional critical care data, enabling them to focus on advancing clinical AI.
- Abstract(参考訳): MIMICやeICUといった既存のクリティカルケアのEHRデータセットは、臨床AI研究に大きな進歩をもたらしたが、CRITICALデータセットは、地理的に多様な4つのCTSA機関にまたがる371,365人の患者の95億件の記録を含む、広範な規模と多様性を提供することで、新たなフロンティアを開放する。
CRITICALの独特な強みは、ICU前、ICU後、ICU後、入院および外来の両方で遭遇する患者をフルスペクトルで捉えることである。
この多制度的、縦断的な視点は、一般化可能な予測モデルを開発し、ヘルスエクイティ研究を進めるための変革的な機会を生み出します。
しかし、この多サイトリソースの豊かさは、データ調和の相当な複雑さをもたらし、不均一なコレクションのプラクティスと、洗練された前処理アプローチを必要とする多様な語彙の使用パターンが伴う。
この貴重なリソースの可能性を最大限に活用するためにCRISPを提示する。
CRISPは, 生の観測医療成果をML対応データセットに体系的に変換する。(1) 包括的監査パスによる透明なデータ品質管理,(2) 不均一な医療用語を統一的なSNOMED-CT標準にクロスボキャブラリマッピング, (3) 並列最適化によるモジュールアーキテクチャにより, 標準計算ハードウェアでも1日以内の完全なデータセット処理が可能,(4) 再現可能なパフォーマンス基準を確立するための複数の臨床予測タスクを網羅した総合的ベースラインモデルベンチマーク。
処理パイプライン、ベースライン実装、詳細な変換ドキュメントを提供することで、CRISPは、数ヶ月の事前処理の労力を節約し、大規模な多施設的クリティカルケアデータへのアクセスを民主化し、臨床AIの進歩に集中できるようにする。
関連論文リスト
- MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation [55.37355146924576]
MedSeqFTは、医用画像解析のためのシーケンシャルな微調整フレームワークである。
事前訓練されたモデルを新しいタスクに適応させ、表現能力を改善する。
最先端の微調整戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-07T15:22:53Z) - Improving Representation Learning of Complex Critical Care Data with ICU-BERT [7.287023190850672]
ICU-BERTは、MIMIC-IVデータベース上で事前トレーニングされたトランスフォーマーベースのモデルである。
最小限の事前処理で複雑なICUデータの堅牢な表現を学習する。
微調整を活用することで、現在のパフォーマンスベンチマークと比較するか、超えるかのどちらかだ。
論文 参考訳(メタデータ) (2025-02-26T22:16:58Z) - Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - XAI for In-hospital Mortality Prediction via Multimodal ICU Data [57.73357047856416]
マルチモーダルICUデータを用いて病院内死亡率を予測するための,効率的で説明可能なAIソリューションを提案する。
我々は,臨床データから異種入力を受信し,意思決定を行うマルチモーダル・ラーニングを我々のフレームワークに導入する。
我々の枠組みは、医療研究において重要な要素の発見を容易にする他の臨床課題に容易に移行することができる。
論文 参考訳(メタデータ) (2023-12-29T14:28:04Z) - Building Flexible, Scalable, and Machine Learning-ready Multimodal
Oncology Datasets [17.774341783844026]
本研究は、オンコロジーデータシステム(MINDS)のマルチモーダル統合を提案する。
MINDSはフレキシブルでスケーラブルで費用対効果の高いメタデータフレームワークで、公開ソースから異なるデータを効率的に分離する。
MINDSは、マルチモーダルデータを調和させることで、より分析能力の高い研究者を力づけることを目指している。
論文 参考訳(メタデータ) (2023-09-30T15:44:39Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。