論文の概要: EHRSHOT: An EHR Benchmark for Few-Shot Evaluation of Foundation Models
- arxiv url: http://arxiv.org/abs/2307.02028v3
- Date: Mon, 11 Dec 2023 18:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 22:29:05.372592
- Title: EHRSHOT: An EHR Benchmark for Few-Shot Evaluation of Foundation Models
- Title(参考訳): EHRSHOT: 基礎モデルのFew-Shot評価のためのEHRベンチマーク
- Authors: Michael Wornow, Rahul Thapa, Ethan Steinberg, Jason A. Fries, Nigam H.
Shah
- Abstract要約: スタンフォード大学の6,739人の患者の電子健康記録(EHRs)から構造化されたデータを含む新しいデータセット EHRSHOT を公表した。
第2に,257万症例のERHデータに基づいて事前訓練した141Mパラメータ臨床基盤モデルであるCLMBR-T-baseの重みを公表した。
第3に、15の臨床的予測タスクを定義し、サンプル効率やタスク適応などの利点に基づく基礎モデルの評価を可能にする。
- 参考スコア(独自算出の注目度): 6.506937003687058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the general machine learning (ML) community has benefited from public
datasets, tasks, and models, the progress of ML in healthcare has been hampered
by a lack of such shared assets. The success of foundation models creates new
challenges for healthcare ML by requiring access to shared pretrained models to
validate performance benefits. We help address these challenges through three
contributions. First, we publish a new dataset, EHRSHOT, which contains
deidentified structured data from the electronic health records (EHRs) of 6,739
patients from Stanford Medicine. Unlike MIMIC-III/IV and other popular EHR
datasets, EHRSHOT is longitudinal and not restricted to ICU/ED patients.
Second, we publish the weights of CLMBR-T-base, a 141M parameter clinical
foundation model pretrained on the structured EHR data of 2.57M patients. We
are one of the first to fully release such a model for coded EHR data; in
contrast, most prior models released for clinical data (e.g. GatorTron,
ClinicalBERT) only work with unstructured text and cannot process the rich,
structured data within an EHR. We provide an end-to-end pipeline for the
community to validate and build upon its performance. Third, we define 15
few-shot clinical prediction tasks, enabling evaluation of foundation models on
benefits such as sample efficiency and task adaptation. Our model and dataset
are available via a research data use agreement from our website:
https://ehrshot.stanford.edu. Code to reproduce our results are available at
our Github repo: https://github.com/som-shahlab/ehrshot-benchmark
- Abstract(参考訳): 一般機械学習(ML)コミュニティは、パブリックデータセット、タスク、モデルから恩恵を受けているが、医療におけるMLの進歩は、そのような共有資産の欠如によって妨げられている。
ファンデーションモデルの成功は、パフォーマンスのメリットを検証するために共有事前トレーニングされたモデルへのアクセスを必要とすることで、ヘルスケアMLに新たな課題を生み出します。
私たちは3つのコントリビューションを通じてこれらの課題に対処します。
まず、スタンフォード大学の6,739人の患者の電子健康記録(EHR)から構造化されたデータを含む新しいデータセット EHRSHOT を公表する。
MIMIC-III/IV や他の一般的な EHR データセットとは異なり、EHRSHOT は縦長であり、ICU/ED 患者に限定されない。
第2に,257m患者の構造化ehrデータに基づいて前訓練した141mパラメーター臨床基礎モデルclmbr-t-baseの重みを公表する。
対照的に、臨床データ(例えば、GatorTron, ClinicalBERT)でリリースされたほとんどの先行モデルは、構造化されていないテキストでのみ動作し、EHR内でリッチで構造化されたデータを処理できない。
コミュニティがパフォーマンスを検証して構築するためのエンドツーエンドパイプラインを提供しています。
第3に, 臨床予測タスクを15個定義し, サンプル効率やタスク適応などに基づく基礎モデルの評価を可能にした。
私たちのモデルとデータセットは、Webサイトからのリサーチデータ使用契約を通じて利用可能です。
結果を再現するためのコードはgithubのリポジトリで入手できます。
関連論文リスト
- Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - EHRMamba: Towards Generalizable and Scalable Foundation Models for Electronic Health Records [4.540391547020466]
我々は,Mambaアーキテクチャ上に構築された堅牢な基盤モデルであるEHRMambaを紹介する。
EHRデータに対するMPF(Multitask Prompted Finetuning)の新たなアプローチを導入し,EHRMambaが単一ファインタニングフェーズで複数の臨床タスクを同時に学習できるようにする。
MIMIC-IVデータセットを用いて評価したところ, EHRMambaは6つの主要な臨床課題にまたがって最先端の成績を向上し, EHR予測に優れており, この分野における飛躍的な進歩を示している。
論文 参考訳(メタデータ) (2024-05-23T13:43:29Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - A Multi-Center Study on the Adaptability of a Shared Foundation Model for Electronic Health Records [2.83988353856908]
ファンデーションモデルは、下流の医療タスクに容易に適応可能なモジュラーコンポーネントを提供することで、医療におけるAI転換を約束している。
本研究は,257万人のスタンフォード医科患者の縦断的医療記録データに基づいてトレーニングしたEMHファンデーションモデル(FM_SM$)の適応性について検討した。
本研究は, 病院間での共用EHR基盤モデルの適用により, より低コストで予測性能が向上することが示唆された。
論文 参考訳(メタデータ) (2023-11-20T01:58:27Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Federated Learning of Medical Concepts Embedding using BEHRT [0.0]
医療概念の埋め込み学習のための連合学習手法を提案する。
我々のアプローチは、EHRのディープニューラルネットワークモデルであるBEHRTのような埋め込みモデルに基づいている。
我々は、FLで訓練されたモデルと集中型データで訓練されたモデルのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2023-05-22T14:05:39Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Adapting Pretrained Language Models for Solving Tabular Prediction
Problems in the Electronic Health Record [0.0]
本研究は,MIMIC-III放電サマリー,臨床ノート,放射線学報告,PubMed要約からなるデータセット上で,小さなDeBERTaモデルを事前訓練する。
我々は,本モデルの性能を,施設のEHR(DeBERTa)とXGBoostモデルから臨床テキストを事前学習したDeBERTaモデルと比較した。
論文 参考訳(メタデータ) (2023-03-27T05:34:19Z) - Unsupervised Pre-Training on Patient Population Graphs for Patient-Level
Predictions [48.02011627390706]
プレトレーニングは、コンピュータビジョン(CV)、自然言語処理(NLP)、医療画像など、機械学習のさまざまな分野で成功している。
本稿では,患者結果の予測のために,教師なし事前学習を異種マルチモーダルEHRデータに適用する。
提案手法は,人口レベルでのデータモデリングに有効であることがわかった。
論文 参考訳(メタデータ) (2022-03-23T17:59:45Z) - Does BERT Pretrained on Clinical Notes Reveal Sensitive Data? [70.3631443249802]
我々は、トレーニングされたBERTからPersonal Health Informationを復元するためのアプローチのバッテリーを設計する。
具体的には,患者の名前と関連した状態の回復を試みている。
簡単な探索法では,MIMIC-IIIコーパス上で訓練されたBERTから機密情報を有意に抽出できないことがわかった。
論文 参考訳(メタデータ) (2021-04-15T20:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。