論文の概要: Self-Supervised Time-to-Event Modeling with Structured Medical Records
- arxiv url: http://arxiv.org/abs/2301.03150v1
- Date: Mon, 9 Jan 2023 02:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 17:35:41.709221
- Title: Self-Supervised Time-to-Event Modeling with Structured Medical Records
- Title(参考訳): 構造化医療記録を用いた自己教師付き時間-イベントモデリング
- Authors: Ethan Steinberg, Yizhe Xu, Jason Fries, Nigam Shah
- Abstract要約: 生存時間モデル(英: time-to-event model)は、特定の事象が起こるまでの確率分布を推定するために医学やその他の分野で用いられる。
長期間の地平線を持つイベントに共通する高い検閲レートは、利用可能なトレーニングデータをさらに制限し、過度な適合のリスクを悪化させる。
我々は,大規模なタイムスタンプの収集で見られる時間構造を利用した自己教師型モデルを構築した。
- 参考スコア(独自算出の注目度): 3.301741845583689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Time-to-event models (also known as survival models) are used in medicine and
other fields for estimating the probability distribution of the time until a
particular event occurs. While providing many advantages over traditional
classification models, such as naturally handling censoring, time-to-event
models require more parameters and are challenging to learn in settings with
limited labeled training data. High censoring rates, common in events with long
time horizons, further limit available training data and exacerbate the risk of
overfitting. Existing methods, such as proportional hazard or accelerated
failure time-based approaches, employ distributional assumptions to reduce
parameter size, but they are vulnerable to model misspecification. In this
work, we address these challenges with MOTOR, a self-supervised model that
leverages temporal structure found in large-scale collections of timestamped,
but largely unlabeled events, typical of electronic health record data. MOTOR
defines a time-to-event pretraining task that naturally captures the
probability distribution of event times, making it well-suited to applications
in medicine. After pretraining on 8,192 tasks auto-generated from 2.7M patients
(2.4B clinical events), we evaluate the performance of our pretrained model
after fine-tuning to unseen time-to-event tasks. MOTOR-derived models improve
upon current state-of-the-art C statistic performance by 6.6% and decrease
training time (in wall time) by up to 8.2 times. We further improve sample
efficiency, with adapted models matching current state-of-the-art performance
using 95% less training data.
- Abstract(参考訳): 生存時間モデル(英: time-to-event model)は、特定の事象が起こるまでの確率分布を推定するために医学やその他の分野で用いられる。
検閲を自然に扱うような従来の分類モデルに対して多くの利点を提供する一方で、時間とイベントのモデルにはより多くのパラメータが必要であり、ラベル付きトレーニングデータで学習することは困難である。
長期間の地平線を持つイベントに共通する高い検閲レートは、利用可能なトレーニングデータをさらに制限し、過度な適合のリスクを悪化させる。
比例ハザードやフェールタイムベースアプローチの高速化といった既存の手法では、パラメータサイズを減らすために分散仮定を採用しているが、モデルの誤特定に対して脆弱である。
本研究では,電子カルテデータに代表される,タイムスタンプ付きだがラベル付きイベントの大規模コレクションに見られる時間構造を活用した自己教師付きモデルである motor を用いて,これらの課題に対処する。
motorは、イベント時間の確率分布を自然に捉え、医学の応用に適しているイベント前トレーニングタスクを定義している。
2.7m患者から自動生成した8,192タスク(臨床イベント2.4b)を事前トレーニングした後,未発見のタスクを微調整した後,プリトレーニングモデルの性能を評価する。
MOTOR由来のモデルは現在の最先端のC統計性能を6.6%改善し、トレーニング時間を最大8.2倍に短縮する。
95%のトレーニングデータを用いて,現在の最先端のパフォーマンスに適合する適応モデルを用いて,サンプル効率をさらに向上させる。
関連論文リスト
- GIFT-Eval: A Benchmark For General Time Series Forecasting Model Evaluation [90.53485251837235]
時系列基礎モデルはゼロショット予測に優れ、明示的なトレーニングなしで多様なタスクを処理する。
GIFT-Evalは、多様なデータセットに対する評価を促進するための先駆的なベンチマークである。
GIFT-Evalには、144,000の時系列と17700万のデータポイントの23のデータセットが含まれている。
論文 参考訳(メタデータ) (2024-10-14T11:29:38Z) - Towards a Theoretical Understanding of Memorization in Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(GenAI)の主流モデルとして採用されている。
モデル収束を前提とした条件付きおよび非条件付きDPMにおける記憶の理論的理解を提供する。
本研究では、生成されたデータに基づいて訓練された時間依存型分類器を代理条件として利用し、無条件DPMからトレーニングデータを抽出する、textbfSurrogate condItional Data extract (SIDE) という新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T13:17:06Z) - Modeling IoT Traffic Patterns: Insights from a Statistical Analysis of an MTC Dataset [1.2289361708127877]
IoT(Internet-of-Things)は急速に拡大し、多くのデバイスを接続し、私たちの日常生活に不可欠なものになっています。
効果的なIoTトラフィック管理には、マシン型通信(MTC)のモデリングと予測が必要である。
我々は、Kolmogorov-Smirnov、Anderson-Darling、chi-squared、ルート平均二乗誤差などの確立されたテストを含む、適合性テストを用いたMCCトラフィックの包括的統計分析を行う。
論文 参考訳(メタデータ) (2024-09-03T14:24:18Z) - Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - Forecasting Emergency Department Crowding with Advanced Machine Learning
Models and Multivariable Input [8.294560133196807]
救急部門(ED)の混雑は患者の安全にとって重大な脅威であり、死亡率の上昇と繰り返し関連付けられている。
1)高度な機械学習モデル(ML)の急激な流入により予測モデルが時代遅れになったこと,2)多変量入力データが制限されたこと,3)個別のパフォーマンス指標が報告されることは稀である。
我々は、N-BEATSとLightGBMがそれぞれ11%と9%の改善率でベンチマークを上回り、DeepARは翌日のAUCが0.76(95 % CI 0.69-0.84)になると予測していることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:34:20Z) - EHRSHOT: An EHR Benchmark for Few-Shot Evaluation of Foundation Models [6.506937003687058]
スタンフォード大学の6,739人の患者の電子健康記録(EHRs)から構造化されたデータを含む新しいデータセット EHRSHOT を公表した。
第2に,257万症例のERHデータに基づいて事前訓練した141Mパラメータ臨床基盤モデルであるCLMBR-T-baseの重みを公表した。
第3に、15の臨床的予測タスクを定義し、サンプル効率やタスク適応などの利点に基づく基礎モデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-07-05T05:24:59Z) - Federated Learning of Medical Concepts Embedding using BEHRT [0.0]
医療概念の埋め込み学習のための連合学習手法を提案する。
我々のアプローチは、EHRのディープニューラルネットワークモデルであるBEHRTのような埋め込みモデルに基づいている。
我々は、FLで訓練されたモデルと集中型データで訓練されたモデルのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2023-05-22T14:05:39Z) - Unsupervised Pre-Training on Patient Population Graphs for Patient-Level
Predictions [48.02011627390706]
プレトレーニングは、コンピュータビジョン(CV)、自然言語処理(NLP)、医療画像など、機械学習のさまざまな分野で成功している。
本稿では,患者結果の予測のために,教師なし事前学習を異種マルチモーダルEHRデータに適用する。
提案手法は,人口レベルでのデータモデリングに有効であることがわかった。
論文 参考訳(メタデータ) (2022-03-23T17:59:45Z) - Pre-training transformer-based framework on large-scale pediatric claims
data for downstream population-specific tasks [3.1580072841682734]
本研究は、小児科のクレームデータセット全体をトレーニングする一般的な事前学習モデルであるClaim Pre-Training(Claim-PT)フレームワークを提案する。
効果的な知識伝達はタスク対応微調整段階を通じて完了する。
我々は100万人以上の患者記録を持つ実世界のクレームデータセットの実験を行った。
論文 参考訳(メタデータ) (2021-06-24T15:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。