論文の概要: MEDS-Tab: Automated tabularization and baseline methods for MEDS datasets
- arxiv url: http://arxiv.org/abs/2411.00200v1
- Date: Thu, 31 Oct 2024 20:36:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:47:33.854535
- Title: MEDS-Tab: Automated tabularization and baseline methods for MEDS datasets
- Title(参考訳): MEDS-Tab:MEDSデータセットの自動表化とベースライン法
- Authors: Nassim Oufattole, Teya Bergamaschi, Aleksia Kolo, Hyewon Jeong, Hanna Gaggin, Collin M. Stultz, Matthew B. A. McDermott,
- Abstract要約: この作業は、MEDSフレームワークによるコアデータ標準化の補完的な進歩によって実現されている。
我々は、不規則にサンプリングされた時系列データを著しく単純化し、加速する。
このシステムは、多様なデータセットと臨床設定にわたる健康問題に対する強力なMLソリューションの開発において、信頼性、スケーラビリティ、容易性を大幅に向上する。
- 参考スコア(独自算出の注目度): 2.8209943093430443
- License:
- Abstract: Effective, reliable, and scalable development of machine learning (ML) solutions for structured electronic health record (EHR) data requires the ability to reliably generate high-quality baseline models for diverse supervised learning tasks in an efficient and performant manner. Historically, producing such baseline models has been a largely manual effort--individual researchers would need to decide on the particular featurization and tabularization processes to apply to their individual raw, longitudinal data; and then train a supervised model over those data to produce a baseline result to compare novel methods against, all for just one task and one dataset. In this work, powered by complementary advances in core data standardization through the MEDS framework, we dramatically simplify and accelerate this process of tabularizing irregularly sampled time-series data, providing researchers the ability to automatically and scalably featurize and tabularize their longitudinal EHR data across tens of thousands of individual features, hundreds of millions of clinical events, and diverse windowing horizons and aggregation strategies, all before ultimately leveraging these tabular data to automatically produce high-caliber XGBoost baselines in a highly computationally efficient manner. This system scales to dramatically larger datasets than tabularization tools currently available to the community and enables researchers with any MEDS format dataset to immediately begin producing reliable and performant baseline prediction results on various tasks, with minimal human effort required. This system will greatly enhance the reliability, reproducibility, and ease of development of powerful ML solutions for health problems across diverse datasets and clinical settings.
- Abstract(参考訳): 構造化された電子健康記録(EHR)データのための機械学習(ML)ソリューションの効率的で信頼性が高くスケーラブルな開発には、多種多様な教師付き学習タスクのための高品質なベースラインモデルを、効率的かつ実用的な方法で確実に生成する能力が必要である。
歴史的に、このようなベースラインモデルの作成は、主に手作業であり、個々の生データ、縦データに適用するために、個々の成果化と表象化プロセスを決定する必要がある。
本研究は,MEDSフレームワークによるコアデータの標準化の相補的な進歩を生かして,不規則にサンプリングされた時系列データの表計算を劇的に単純化し,研究者たちに,数万の個々の特徴,数億の臨床イベント,多種多様なウィンドウ化水平線と集約戦略にまたがって,それらの表計算データを活用して,高精細なXGBoostベースラインを高い計算効率で自動生成する機能を提供する。
このシステムは、現在コミュニティで利用可能な表式化ツールよりも大幅に大きなデータセットにスケールし、MEDSフォーマットのデータセットを持つ研究者が、様々なタスクに対して信頼性とパフォーマンスの高いベースライン予測結果を即座に作成し、最小限の人的労力で作成することができる。
このシステムは、多様なデータセットと臨床設定にまたがる健康問題に対する強力なMLソリューションの開発において、信頼性、再現性、信頼性を大幅に向上する。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - An Efficient Contrastive Unimodal Pretraining Method for EHR Time Series Data [35.943089444017666]
本稿では,長期臨床経過データに適した比較事前学習法を提案する。
本モデルでは, 臨床医が患者の症状についてより深い知見を得られるように, 欠損測定をインプットする能力を示す。
論文 参考訳(メタデータ) (2024-10-11T19:05:25Z) - Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - Towards Precision Healthcare: Robust Fusion of Time Series and Image Data [8.579651833717763]
本稿では,データの種類毎に2つのエンコーダを用いて,視覚情報と時間情報の両方において複雑なパターンをモデル化する手法を提案する。
また、不均衡なデータセットに対処し、不確実性損失関数を使用し、改善した結果を得る。
本手法は,臨床応用におけるマルチモーダルディープラーニングの改善に有効であることを示す。
論文 参考訳(メタデータ) (2024-05-24T11:18:13Z) - Automated Multi-Task Learning for Joint Disease Prediction on Electronic Health Records [4.159498069487535]
本稿では,タスクグループとアーキテクチャの最適構成を同時に検索できるAutoDPという自動手法を提案する。
ハンドクラフトと自動化された最先端の手法の両方に対して大幅な性能向上を実現し、同時に検索コストを同時に維持する。
論文 参考訳(メタデータ) (2024-03-06T22:32:48Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Building Flexible, Scalable, and Machine Learning-ready Multimodal
Oncology Datasets [17.774341783844026]
本研究は、オンコロジーデータシステム(MINDS)のマルチモーダル統合を提案する。
MINDSはフレキシブルでスケーラブルで費用対効果の高いメタデータフレームワークで、公開ソースから異なるデータを効率的に分離する。
MINDSは、マルチモーダルデータを調和させることで、より分析能力の高い研究者を力づけることを目指している。
論文 参考訳(メタデータ) (2023-09-30T15:44:39Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Fast, Accurate, and Simple Models for Tabular Data via Augmented
Distillation [97.42894942391575]
本研究では、FAST-DADを用いて、任意の複雑なアンサンブル予測を、高木、無作為林、深層ネットワークなどの個々のモデルに抽出する。
我々の個々の蒸留モデルは、H2O/AutoSklearnのようなAutoMLツールが生成するアンサンブル予測よりも10倍高速で精度が高い。
論文 参考訳(メタデータ) (2020-06-25T09:57:47Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。