論文の概要: Estimating Model Performance on External Samples from Their Limited
Statistical Characteristics
- arxiv url: http://arxiv.org/abs/2202.13683v1
- Date: Mon, 28 Feb 2022 11:05:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 15:45:14.340717
- Title: Estimating Model Performance on External Samples from Their Limited
Statistical Characteristics
- Title(参考訳): 限られた統計的特性から外部サンプルのモデル性能の推定
- Authors: Tal El-Hay and Chen Yanover
- Abstract要約: 本稿では,その限られた統計特性から,外部サンプルのモデル性能を推定する手法を提案する。
シミュレーションデータと電子カルテデータを2つのリスクモデルで評価する。
- 参考スコア(独自算出の注目度): 0.26107298043931193
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Methods that address data shifts usually assume full access to multiple
datasets. In the healthcare domain, however, privacy-preserving regulations as
well as commercial interests limit data availability and, as a result,
researchers can typically study only a small number of datasets. In contrast,
limited statistical characteristics of specific patient samples are much easier
to share and may be available from previously published literature or focused
collaborative efforts.
Here, we propose a method that estimates model performance in external
samples from their limited statistical characteristics. We search for weights
that induce internal statistics that are similar to the external ones; and that
are closest to uniform. We then use model performance on the weighted internal
sample as an estimation for the external counterpart.
We evaluate the proposed algorithm on simulated data as well as electronic
medical record data for two risk models, predicting complications in ulcerative
colitis patients and stroke in women diagnosed with atrial fibrillation. In the
vast majority of cases, the estimated external performance is much closer to
the actual one than the internal performance. Our proposed method may be an
important building block in training robust models and detecting potential
model failures in external environments.
- Abstract(参考訳): データシフトに対処するメソッドは通常、複数のデータセットへのフルアクセスを前提とします。
しかしヘルスケア分野では、プライバシー保護規則と商業的利益はデータの可用性を制限し、その結果、研究者はごく少数のデータセットしか調査できない。
対照的に、特定の患者サンプルの限られた統計特性は共有しやすく、以前に出版された文献や共同研究から利用できる。
本稿では,その限られた統計特性から外部サンプルのモデル性能を推定する手法を提案する。
外部と類似した内部統計を誘導する重みを探索し、一様に近い重みを探索する。
次に、重み付けされた内部サンプルのモデル性能を、外部サンプルの見積もりとして使用する。
心房細動と診断された女性の潰瘍性大腸炎と脳卒中の合併症を予測し,シミュレーションデータと電子カルテデータを用いて2つのリスクモデルについて検討した。
ほとんどのケースでは、推定された外部パフォーマンスは、内部パフォーマンスよりも実際のパフォーマンスにずっと近い。
提案手法は,頑健なモデルのトレーニングや,外部環境における潜在的なモデル故障の検出において重要なビルディングブロックとなる可能性がある。
関連論文リスト
- The Relevance Feature and Vector Machine for health applications [0.11538034264098687]
本稿では,臨床研究における脂肪データ問題に対処する新しいモデルを提案する。
モデル機能は、太いデータ問題のあるいくつかの医療データセットの最先端モデルに対してテストされる。
論文 参考訳(メタデータ) (2024-02-11T01:21:56Z) - Conditional Density Estimations from Privacy-Protected Data [0.0]
プライバシ保護されたデータセットからのシミュレーションに基づく推論手法を提案する。
本稿では,感染性疾患モデルと通常の線形回帰モデルに基づく個別時系列データについて述べる。
論文 参考訳(メタデータ) (2023-10-19T14:34:17Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - CEDAR: Communication Efficient Distributed Analysis for Regressions [9.50726756006467]
患者レベルのデータを共有することなく、複数のEHRデータベース上での分散学習への関心が高まっている。
本稿では,局所的な最適推定値を集約する通信効率のよい新しい手法を提案する。
本稿では,統計的推測法と差分プライバシーに関する理論的検討を行い,シミュレーションおよび実データ解析におけるその性能評価を行う。
論文 参考訳(メタデータ) (2022-07-01T09:53:44Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z) - Mixture Model Framework for Traumatic Brain Injury Prognosis Using
Heterogeneous Clinical and Outcome Data [3.7363119896212478]
TBIに関連する大きな異種データ型をモデル化する手法を開発する。
このモデルは、人口統計、血液ベースのバイオマーカー、画像検出など、さまざまなデータタイプを含むデータセットでトレーニングされます。
教師なしの学習環境で患者を別々のグループに成層するために使用されます。
論文 参考訳(メタデータ) (2020-12-22T19:31:03Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。