論文の概要: EHRSHOT: An EHR Benchmark for Few-Shot Evaluation of Foundation Models
- arxiv url: http://arxiv.org/abs/2307.02028v1
- Date: Wed, 5 Jul 2023 05:24:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 15:02:09.349633
- Title: EHRSHOT: An EHR Benchmark for Few-Shot Evaluation of Foundation Models
- Title(参考訳): EHRSHOT: 基礎モデルのFew-Shot評価のためのEHRベンチマーク
- Authors: Michael Wornow, Rahul Thapa, Ethan Steinberg, Jason Fries, Nigam Shah
- Abstract要約: スタンフォード大学の6,712人の患者の電子健康記録(EHR)から非同定された構造化データを含む新しいデータセット EHRSHOT を公表した。
私たちは、コード化されたEHRデータのそのようなモデルを完全にリリースした最初の1人です。
コミュニティがパフォーマンスを検証し、構築するためのエンドツーエンドのパイプラインを提供しています。
- 参考スコア(独自算出の注目度): 3.6786137742512635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the general machine learning (ML) community has benefited from public
datasets, tasks, and models, the progress of ML in healthcare has been hampered
by a lack of such shared assets. The success of foundation models creates new
challenges for healthcare ML by requiring access to shared pretrained models to
validate performance benefits. We help address these challenges through three
contributions. First, we publish a new dataset, EHRSHOT, containing
de-identified structured data from the electronic health records (EHRs) of
6,712 patients from Stanford Medicine. Unlike MIMIC-III/IV and other popular
EHR datasets, EHRSHOT is longitudinal and not restricted to ICU/ED patients.
Second, we publish the weights of a 141M parameter clinical foundation model
pretrained on the structured EHR data of 2.57M patients. We are one of the
first to fully release such a model for coded EHR data; in contrast, most prior
models released for clinical data (e.g. GatorTron, ClinicalBERT) only work with
unstructured text and cannot process the rich, structured data within an EHR.
We provide an end-to-end pipeline for the community to validate and build upon
its performance. Third, we define 15 few-shot clinical prediction tasks,
enabling evaluation of foundation models on benefits such as sample efficiency
and task adaption. The code to reproduce our results, as well as the model and
dataset (via a research data use agreement), are available at our Github repo
here: https://github.com/som-shahlab/ehrshot-benchmark
- Abstract(参考訳): 一般機械学習(ML)コミュニティは、パブリックデータセット、タスク、モデルから恩恵を受けているが、医療におけるMLの進歩は、そのような共有資産の欠如によって妨げられている。
ファンデーションモデルの成功は、パフォーマンスのメリットを検証するために共有事前トレーニングされたモデルへのアクセスを必要とすることで、ヘルスケアMLに新たな課題を生み出します。
私たちは3つのコントリビューションを通じてこれらの課題に対処します。
まず、スタンフォード大学の6,712人の患者の電子健康記録(EHR)から非同定された構造化データを含む新しいデータセット EHRSHOT を公表する。
MIMIC-III/IV や他の一般的な EHR データセットとは異なり、EHRSHOT は縦長であり、ICU/ED 患者に限定されない。
第2に,257m患者の構造化ehrデータに基づいて前訓練した141mパラメーター臨床基礎モデルの重みを公表する。
対照的に、臨床データ(例えば、GatorTron, ClinicalBERT)でリリースされたほとんどの先行モデルは、構造化されていないテキストでのみ動作し、EHR内でリッチで構造化されたデータを処理できない。
コミュニティがパフォーマンスを検証して構築するためのエンドツーエンドパイプラインを提供しています。
第3に, 臨床予測タスクを15個定義し, サンプル効率やタスク適応などに基づく基礎モデルの評価を可能にした。
私たちの結果を再現するコードは、モデルとデータセット(research data use agreement)とともに、githubのリポジトリで利用可能です。
関連論文リスト
- Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - A Multi-Center Study on the Adaptability of a Shared Foundation Model for Electronic Health Records [2.83988353856908]
ファンデーションモデルは、下流の医療タスクに容易に適応可能なモジュラーコンポーネントを提供することで、医療におけるAI転換を約束している。
本研究は,257万人のスタンフォード医科患者の縦断的医療記録データに基づいてトレーニングしたEMHファンデーションモデル(FM_SM$)の適応性について検討した。
本研究は, 病院間での共用EHR基盤モデルの適用により, より低コストで予測性能が向上することが示唆された。
論文 参考訳(メタデータ) (2023-11-20T01:58:27Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Federated Learning of Medical Concepts Embedding using BEHRT [0.0]
医療概念の埋め込み学習のための連合学習手法を提案する。
我々のアプローチは、EHRのディープニューラルネットワークモデルであるBEHRTのような埋め込みモデルに基づいている。
我々は、FLで訓練されたモデルと集中型データで訓練されたモデルのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2023-05-22T14:05:39Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Adapting Pretrained Language Models for Solving Tabular Prediction
Problems in the Electronic Health Record [0.0]
本研究は,MIMIC-III放電サマリー,臨床ノート,放射線学報告,PubMed要約からなるデータセット上で,小さなDeBERTaモデルを事前訓練する。
我々は,本モデルの性能を,施設のEHR(DeBERTa)とXGBoostモデルから臨床テキストを事前学習したDeBERTaモデルと比較した。
論文 参考訳(メタデータ) (2023-03-27T05:34:19Z) - Unsupervised Pre-Training on Patient Population Graphs for Patient-Level
Predictions [48.02011627390706]
プレトレーニングは、コンピュータビジョン(CV)、自然言語処理(NLP)、医療画像など、機械学習のさまざまな分野で成功している。
本稿では,患者結果の予測のために,教師なし事前学習を異種マルチモーダルEHRデータに適用する。
提案手法は,人口レベルでのデータモデリングに有効であることがわかった。
論文 参考訳(メタデータ) (2022-03-23T17:59:45Z) - Does BERT Pretrained on Clinical Notes Reveal Sensitive Data? [70.3631443249802]
我々は、トレーニングされたBERTからPersonal Health Informationを復元するためのアプローチのバッテリーを設計する。
具体的には,患者の名前と関連した状態の回復を試みている。
簡単な探索法では,MIMIC-IIIコーパス上で訓練されたBERTから機密情報を有意に抽出できないことがわかった。
論文 参考訳(メタデータ) (2021-04-15T20:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。