Fugu-MT 論文翻訳(概要): MEDS-Tab: Automated tabularization and baseline methods for MEDS datasets

論文の概要: MEDS-Tab: Automated tabularization and baseline methods for MEDS datasets

arxiv url: http://arxiv.org/abs/2411.00200v1
Date: Thu, 31 Oct 2024 20:36:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.103943
Title: MEDS-Tab: Automated tabularization and baseline methods for MEDS datasets
Title（参考訳）: MEDS-Tab:MEDSデータセットの自動表化とベースライン法
Authors: Nassim Oufattole, Teya Bergamaschi, Aleksia Kolo, Hyewon Jeong, Hanna Gaggin, Collin M. Stultz, Matthew B. A. McDermott,
Abstract要約: この作業は、MEDSフレームワークによるコアデータ標準化の補完的な進歩によって実現されている。我々は、不規則にサンプリングされた時系列データを著しく単純化し、加速する。このシステムは、多様なデータセットと臨床設定にわたる健康問題に対する強力なMLソリューションの開発において、信頼性、スケーラビリティ、容易性を大幅に向上する。
参考スコア（独自算出の注目度）: 2.8209943093430443
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Effective, reliable, and scalable development of machine learning (ML) solutions for structured electronic health record (EHR) data requires the ability to reliably generate high-quality baseline models for diverse supervised learning tasks in an efficient and performant manner. Historically, producing such baseline models has been a largely manual effort--individual researchers would need to decide on the particular featurization and tabularization processes to apply to their individual raw, longitudinal data; and then train a supervised model over those data to produce a baseline result to compare novel methods against, all for just one task and one dataset. In this work, powered by complementary advances in core data standardization through the MEDS framework, we dramatically simplify and accelerate this process of tabularizing irregularly sampled time-series data, providing researchers the ability to automatically and scalably featurize and tabularize their longitudinal EHR data across tens of thousands of individual features, hundreds of millions of clinical events, and diverse windowing horizons and aggregation strategies, all before ultimately leveraging these tabular data to automatically produce high-caliber XGBoost baselines in a highly computationally efficient manner. This system scales to dramatically larger datasets than tabularization tools currently available to the community and enables researchers with any MEDS format dataset to immediately begin producing reliable and performant baseline prediction results on various tasks, with minimal human effort required. This system will greatly enhance the reliability, reproducibility, and ease of development of powerful ML solutions for health problems across diverse datasets and clinical settings.
Abstract（参考訳）: 構造化された電子健康記録(EHR)データのための機械学習(ML)ソリューションの効率的で信頼性が高くスケーラブルな開発には、多種多様な教師付き学習タスクのための高品質なベースラインモデルを、効率的かつ実用的な方法で確実に生成する能力が必要である。歴史的に、このようなベースラインモデルの作成は、主に手作業であり、個々の生データ、縦データに適用するために、個々の成果化と表象化プロセスを決定する必要がある。本研究は,MEDSフレームワークによるコアデータの標準化の相補的な進歩を生かして,不規則にサンプリングされた時系列データの表計算を劇的に単純化し,研究者たちに,数万の個々の特徴,数億の臨床イベント,多種多様なウィンドウ化水平線と集約戦略にまたがって,それらの表計算データを活用して,高精細なXGBoostベースラインを高い計算効率で自動生成する機能を提供する。このシステムは、現在コミュニティで利用可能な表式化ツールよりも大幅に大きなデータセットにスケールし、MEDSフォーマットのデータセットを持つ研究者が、様々なタスクに対して信頼性とパフォーマンスの高いベースライン予測結果を即座に作成し、最小限の人的労力で作成することができる。このシステムは、多様なデータセットと臨床設定にまたがる健康問題に対する強力なMLソリューションの開発において、信頼性、再現性、信頼性を大幅に向上する。

関連論文リスト

Scaling Generalist Data-Analytic Agents [95.05161133349242]
DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。 DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
論文参考訳（メタデータ） (2025-09-29T17:23:08Z)
DeepSeq: High-Throughput Single-Cell RNA Sequencing Data Labeling via Web Search-Augmented Agentic Generative AI Foundation Models [0.0]
生成AI基盤モデルは、構造化された生物学的データを処理するための変換ポテンシャルを提供する。本稿では,実時間Web検索を用いたエージェント基礎モデルを用いて実験データのラベル付けを自動化し,最大82.5%の精度を実現することを提案する。
論文参考訳（メタデータ） (2025-06-14T23:30:22Z)
Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文参考訳（メタデータ） (2025-02-17T18:04:39Z)
CAAT-EHR: Cross-Attentional Autoregressive Transformer for Multimodal Electronic Health Record Embeddings [0.0]
本稿では,タスク非依存の縦埋め込みを生のEHRデータから生成する新しいアーキテクチャであるCAAT-EHRを紹介する。自己回帰デコーダは、事前訓練中に将来の時刻データを予測してエンコーダを補完し、その結果の埋め込みが時間的整合性と整合性を維持する。
論文参考訳（メタデータ） (2025-01-31T05:00:02Z)
Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。 UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文参考訳（メタデータ） (2025-01-20T21:10:22Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
An Efficient Contrastive Unimodal Pretraining Method for EHR Time Series Data [35.943089444017666]
本稿では,長期臨床経過データに適した比較事前学習法を提案する。本モデルでは, 臨床医が患者の症状についてより深い知見を得られるように, 欠損測定をインプットする能力を示す。
論文参考訳（メタデータ） (2024-10-11T19:05:25Z)
Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文参考訳（メタデータ） (2024-09-17T17:22:35Z)
Towards Precision Healthcare: Robust Fusion of Time Series and Image Data [8.579651833717763]
本稿では,データの種類毎に2つのエンコーダを用いて,視覚情報と時間情報の両方において複雑なパターンをモデル化する手法を提案する。また、不均衡なデータセットに対処し、不確実性損失関数を使用し、改善した結果を得る。本手法は,臨床応用におけるマルチモーダルディープラーニングの改善に有効であることを示す。
論文参考訳（メタデータ） (2024-05-24T11:18:13Z)
Automated Multi-Task Learning for Joint Disease Prediction on Electronic Health Records [4.159498069487535]
本稿では,タスクグループとアーキテクチャの最適構成を同時に検索できるAutoDPという自動手法を提案する。ハンドクラフトと自動化された最先端の手法の両方に対して大幅な性能向上を実現し、同時に検索コストを同時に維持する。
論文参考訳（メタデータ） (2024-03-06T22:32:48Z)
Building Flexible, Scalable, and Machine Learning-ready Multimodal Oncology Datasets [17.774341783844026]
本研究は、オンコロジーデータシステム(MINDS)のマルチモーダル統合を提案する。 MINDSはフレキシブルでスケーラブルで費用対効果の高いメタデータフレームワークで、公開ソースから異なるデータを効率的に分離する。 MINDSは、マルチモーダルデータを調和させることで、より分析能力の高い研究者を力づけることを目指している。
論文参考訳（メタデータ） (2023-09-30T15:44:39Z)
SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文参考訳（メタデータ） (2021-01-02T01:15:57Z)
Towards an Automatic Analysis of CHO-K1 Suspension Growth in Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文参考訳（メタデータ） (2020-10-20T08:36:51Z)
Fast, Accurate, and Simple Models for Tabular Data via Augmented Distillation [97.42894942391575]
本研究では、FAST-DADを用いて、任意の複雑なアンサンブル予測を、高木、無作為林、深層ネットワークなどの個々のモデルに抽出する。我々の個々の蒸留モデルは、H2O/AutoSklearnのようなAutoMLツールが生成するアンサンブル予測よりも10倍高速で精度が高い。
論文参考訳（メタデータ） (2020-06-25T09:57:47Z)
Self-Training with Improved Regularization for Sample-Efficient Chest X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文参考訳（メタデータ） (2020-05-03T02:36:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。