論文の概要: CORE-BEHRT: A Carefully Optimized and Rigorously Evaluated BEHRT
- arxiv url: http://arxiv.org/abs/2404.15201v4
- Date: Fri, 11 Oct 2024 05:26:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 15:16:58.029864
- Title: CORE-BEHRT: A Carefully Optimized and Rigorously Evaluated BEHRT
- Title(参考訳): CORE-BEHRT: 慎重に最適化され、厳格に評価されるBEHRT
- Authors: Mikkel Odgaard, Kiril Vadimovic Klein, Sanne Møller Thysen, Espen Jimenez-Solem, Martin Sillesen, Mads Nielsen,
- Abstract要約: BERTベースのモデルはBEHRTとMed-BERTのリリース以降、人気が高まっている。
BERTに基づくEHRモデリングについて検討し、重要な設計選択のための改善の源泉を分離する。
- 参考スコア(独自算出の注目度): 1.825224193230824
- License:
- Abstract: The widespread adoption of Electronic Health Records (EHR) has significantly increased the amount of available healthcare data. This has allowed models inspired by Natural Language Processing (NLP) and Computer Vision, which scale exceptionally well, to be used in EHR research. Particularly, BERT-based models have surged in popularity following the release of BEHRT and Med-BERT. Subsequent models have largely built on these foundations despite the fundamental design choices of these pioneering models remaining underexplored. Through incremental optimization, we study BERT-based EHR modeling and isolate the sources of improvement for key design choices, giving us insights into the effect of data representation, individual technical components, and training procedure. Evaluating this across a set of generic tasks (death, pain treatment, and general infection), we showed that improving data representation can increase the average downstream performance from 0.785 to 0.797 AUROC ($p<10^{-7}$), primarily when including medication and timestamps. Improving the architecture and training protocol on top of this increased average downstream performance to 0.801 AUROC ($p<10^{-7}$). We then demonstrated the consistency of our optimization through a rigorous evaluation across 25 diverse clinical prediction tasks. We observed significant performance increases in 17 out of 25 tasks and improvements in 24 tasks, highlighting the generalizability of our results. Our findings provide a strong foundation for future work and aim to increase the trustworthiness of BERT-based EHR models.
- Abstract(参考訳): 電子健康記録(EHR)の普及により、利用可能な医療データの量は大幅に増加した。
これにより、自然言語処理(NLP)とコンピュータビジョン(Computer Vision)にインスパイアされたモデルが、非常にうまくスケールし、EHR研究に使用できるようになった。
特にBERTベースのモデルはBEHRTとMed-BERTのリリース以降、人気が高まっている。
その後のモデルは主にこれらの基礎の上に構築されてきたが、これらの先駆的なモデルの基本設計選択は未調査のままである。
漸進的な最適化を通じて、BERTベースのEHRモデリングを調査し、重要な設計選択のための改善の源泉を分離し、データ表現、個々の技術コンポーネント、トレーニング手順の影響について洞察を提供する。
一連の総合的な課題(死、痛み治療、一般感染)で評価した結果、データ表現の改善は、主に薬品やタイムスタンプを含む場合、平均ダウンストリーム性能を0.785から0.797AUROC(p<10^{-7}$)に向上させることができることがわかった。
アーキテクチャとトレーニングプロトコルの改善により、平均ダウンストリームのパフォーマンスは0.801 AUROC(p<10^{-7}$)に向上した。
次に,25種類の臨床予測課題に対して厳密な評価を行うことで,最適化の整合性を実証した。
その結果,25タスク中17タスクが顕著に向上し,24タスクが改善した。
本研究は,今後の研究の基盤となるとともに,BERTベースのEHRモデルの信頼性向上をめざすものである。
関連論文リスト
- Enhanced Electronic Health Records Text Summarization Using Large Language Models [0.0]
このプロジェクトは、臨床が優先する、焦点を絞った要約を生成するシステムを作成することで、以前の作業の上に構築される。
提案システムでは,Flan-T5モデルを用いて,臨床専門のトピックに基づいた調整されたERHサマリーを生成する。
論文 参考訳(メタデータ) (2024-10-12T19:36:41Z) - BISeizuRe: BERT-Inspired Seizure Data Representation to Improve Epilepsy Monitoring [13.35453284825286]
本研究では,BERTモデルを用いた脳波による発作検出の新しい手法を提案する。
BENDRは2段階のトレーニングプロセス、事前トレーニング、微調整を行う。
最適化されたモデルでは性能が大幅に向上し、0.23 FP/h、2.5$times$はベースラインモデルよりも低く、感度は低いが許容できる。
論文 参考訳(メタデータ) (2024-06-27T14:09:10Z) - Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - Improving Personalisation in Valence and Arousal Prediction using Data Augmentation [2.447631206868802]
本稿では、データ拡張を利用したパーソナライズ戦略の強化について述べる。
提案手法であるDWA(Distance Weighting Augmentation)では,対象者のデータセットを拡大する重み付けに基づく拡張手法を採用している。
MuSe-Personalisation 2023 Challengeデータセットの実験結果から,提案手法は特徴セットの性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-04-13T16:57:37Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Clinical Deterioration Prediction in Brazilian Hospitals Based on
Artificial Neural Networks and Tree Decision Models [56.93322937189087]
超強化ニューラルネットワーク(XBNet)は臨床劣化(CD)を予測するために用いられる
XGBoostモデルはブラジルの病院のデータからCDを予測する最良の結果を得た。
論文 参考訳(メタデータ) (2022-12-17T23:29:14Z) - On the Importance of Clinical Notes in Multi-modal Learning for EHR Data [0.0]
電子健康記録データと臨床ノートを併用することにより,患者モニタリングの予測性能が向上することが従来研究で示されている。
EHRデータと臨床ノートを組み合わせることで、最先端のEHRデータモデルよりもパフォーマンスが大幅に向上することを確認した。
次に、臨床医のメモよりも、患者の状態に関するより広い文脈を含むメモのサブセットから、改善がほぼ排他的に生じることを示す分析を行った。
論文 参考訳(メタデータ) (2022-12-06T15:18:57Z) - Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。
生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。
今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文 参考訳(メタデータ) (2022-11-13T01:07:23Z) - An Empirical Study on Distribution Shift Robustness From the Perspective
of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。
我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2022-05-25T13:04:53Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Bidirectional Representation Learning from Transformers using Multimodal
Electronic Health Record Data to Predict Depression [11.1492931066686]
うつ病の予測のために,ERHシーケンス上で双方向の表現学習を行うための時間的深層学習モデルを提案する。
このモデルでは, 曲線(PRAUC)下において, 最良ベースラインモデルと比較して, 抑うつ予測において0.70から0.76まで, 精度・リコール面積の最大値が得られた。
論文 参考訳(メタデータ) (2020-09-26T17:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。