論文の概要: A Multimodal Data Processing Pipeline for MIMIC-IV Dataset
- arxiv url: http://arxiv.org/abs/2601.11606v1
- Date: Thu, 08 Jan 2026 20:05:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.783976
- Title: A Multimodal Data Processing Pipeline for MIMIC-IV Dataset
- Title(参考訳): MIMIC-IVデータセットのためのマルチモーダルデータ処理パイプライン
- Authors: Farzana Islam Adiba, Varsha Danduri, Fahmida Liza Piya, Ali Abbasi, Mehak Gupta, Rahmatollah Beheshti,
- Abstract要約: MIMIC-IVは、大規模な電子健康記録(EHR)リソースで、臨床機械学習研究に広く利用されている。
構造化データ、臨床ノート、波形、画像データを含む複数のモダリティから構成される。
MIMIC-IVデータ抽出用のパイプラインがいくつか用意されているが、モダリティの小さなサブセットをターゲットにしているか、あるいは任意のダウンストリームアプリケーションを完全にサポートしていない。
本稿では,従来普及してきたユニモーダルパイプラインを大幅に拡張し,包括的でカスタマイズ可能なマルチモーダルパイプラインを提案する。
- 参考スコア(独自算出の注目度): 6.536530002576318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The MIMIC-IV dataset is a large, publicly available electronic health record (EHR) resource widely used for clinical machine learning research. It comprises multiple modalities, including structured data, clinical notes, waveforms, and imaging data. Working with these disjointed modalities requires an extensive manual effort to preprocess and align them for downstream analysis. While several pipelines for MIMIC-IV data extraction are available, they target a small subset of modalities or do not fully support arbitrary downstream applications. In this work, we greatly expand our prior popular unimodal pipeline and present a comprehensive and customizable multimodal pipeline that can significantly reduce multimodal processing time and enhance the reproducibility of MIMIC-based studies. Our pipeline systematically integrates the listed modalities, enabling automated cohort selection, temporal alignment across modalities, and standardized multimodal output formats suitable for arbitrary static and time-series downstream applications. We release the code, a simple UI, and a Python package for selective integration (with embedding) at https://github.com/healthylaife/MIMIC-IV-Data-Pipeline.
- Abstract(参考訳): MIMIC-IVデータセットは、大規模な電子健康記録(EHR)リソースで、臨床機械学習研究に広く利用されている。
構造化データ、臨床ノート、波形、画像データを含む複数のモダリティから構成される。
これらの不連続なモダリティを扱うには、下流の分析のためにそれらを前処理し調整するための広範囲な手作業が必要である。
MIMIC-IVデータ抽出用のパイプラインがいくつか用意されているが、モダリティの小さなサブセットをターゲットにしているか、あるいは任意のダウンストリームアプリケーションを完全にサポートしていない。
本研究は,従来普及してきたユニモーダルパイプラインを大幅に拡張し,マルチモーダル処理時間を大幅に短縮し,MIMICに基づく研究の再現性を高めることができる包括的でカスタマイズ可能なマルチモーダルパイプラインを提案する。
我々のパイプラインは、列挙されたモダリティを体系的に統合し、自動コホート選択、モーダル間の時間的アライメント、任意の静的および時系列ダウンストリームアプリケーションに適した標準化されたマルチモーダル出力フォーマットを実現する。
コード、シンプルなUI、および(埋め込みによる)選択的統合のためのPythonパッケージをhttps://github.com/healthylaife/MIMIC-IV-Data-Pipeline.comでリリースします。
関連論文リスト
- SurvBench: A Standardised Preprocessing Pipeline for Multi-Modal Electronic Health Record Survival Analysis [2.74994442100348]
本稿では、SurvBenchについて述べる。SurvBenchは、生のPhyloNetデータセットをマルチモーダルサバイバル分析のためのモデル対応テンソルに変換する、包括的でオープンソースの前処理パイプラインである。
SurvBenchは、MIMIC-IV、eICU、MC-MEDの3つの主要なクリティカルケアデータベースにデータローダを提供する。
パイプラインは厳格なデータ品質管理、データ漏洩を防止するための患者レベルの分割、明確な欠陥追跡、標準化された時間的集約を実装している。
論文 参考訳(メタデータ) (2025-11-14T23:19:14Z) - MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。
生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。
MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文 参考訳(メタデータ) (2024-12-27T02:39:50Z) - On Domain-Adaptive Post-Training for Multimodal Large Language Models [78.65220510401045]
本稿では,MLLMのドメイン適応をポストトレーニングにより体系的に検討する。
データ合成、トレーニングパイプライン、タスク評価に重点を置いています。
バイオメディシン、食品、リモートセンシングなどの高インパクト領域で実験を行う。
論文 参考訳(メタデータ) (2024-11-29T18:42:28Z) - Multi-Modal Dataset Creation for Federated Learning with DICOM Structured Reports [26.2463670182172]
フェデレーショントレーニングは、多種多様なデータストレージオプション、一貫性のない命名方式、さまざまなアノテーション手順、ラベル品質の相違により、しばしば異種データセットによって妨げられる。
これは、均一なデータ表現とフィルタリングオプションを含むデータセット調和が最重要となる、新興のマルチモーダル学習パラダイムにおいて特に顕著である。
我々は、マルチモーダルデータセットの組み立てプロセスを簡単にする、データ統合と対話型フィルタリング機能のためのオープンプラットフォームを開発した。
論文 参考訳(メタデータ) (2024-07-12T07:34:10Z) - JUMP: A joint multimodal registration pipeline for neuroimaging with
minimal preprocessing [1.3549498237473223]
予備処理が最小限に抑えられた無バイアスで頑健な神経画像モダリティ登録のためのパイプラインを提案する。
パイプラインは現在、構造MRI、静止状態fMRI、アミロイドPET画像で動作する。
ケースコントロール研究で得られたバイオマーカーの予測力を示し、異なる画像のモダリティ間の相互関係について検討する。
論文 参考訳(メタデータ) (2024-01-25T15:40:19Z) - Convolutional Monge Mapping Normalization for learning on sleep data [63.22081662149488]
我々は、CMMN(Convolutional Monge Mapping Normalization)と呼ばれる新しい手法を提案する。
CMMNは、そのパワースペクトル密度(PSD)をトレーニングデータに基づいて推定されるワッサーシュタインバリセンタに適応させるために、信号をフィルタリングする。
睡眠脳波データに関する数値実験により、CMMNはニューラルネットワークアーキテクチャから独立して、顕著で一貫したパフォーマンス向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-30T08:24:01Z) - An Extensive Data Processing Pipeline for MIMIC-IV [0.20326203100766121]
エンドツーエンドで完全にカスタマイズ可能なパイプラインを提供して、データの抽出、クリーン化、および前処理を行います。
ICUおよび非ICU関連臨床時系列予測タスクにおけるMIMICデータセットの第4版(MIMIC-IV)の予測と評価を行った。
論文 参考訳(メタデータ) (2022-04-29T01:09:38Z) - A DICOM Framework for Machine Learning Pipelines against Real-Time
Radiology Images [50.222197963803644]
Nifflerは、研究クラスタでの機械学習パイプラインの実行を可能にする統合フレームワークである。
ニフラーはDigital Imaging and Communications in Medicine (DICOM)プロトコルを使用して画像データの取得と保存を行っている。
我々は,そのアーキテクチャと3つのユースケースを提示する: リアルタイムに画像から下大静脈フィルターを検出すること,スキャナ利用の同定,およびスキャナクロックの校正。
論文 参考訳(メタデータ) (2020-04-16T21:06:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。