論文の概要: Model Evaluation in Medical Datasets Over Time
- arxiv url: http://arxiv.org/abs/2211.07165v1
- Date: Mon, 14 Nov 2022 07:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 20:11:41.496808
- Title: Model Evaluation in Medical Datasets Over Time
- Title(参考訳): 医療データセットにおける時間的モデル評価
- Authors: Helen Zhou, Yuwen Chen, Zachary C. Lipton
- Abstract要約: 本稿では,EMDOTフレームワークとPythonパッケージの評価について紹介し,時間とともにモデルクラスの性能を評価する。
我々は,(1)すべての履歴データを使用する,(2)最新のデータのウィンドウを使用する,という2つのトレーニング戦略を比較した。
時間とともにパフォーマンスが変化していることに注意し、これらのショックの可能な説明を明らかにします。
- 参考スコア(独自算出の注目度): 26.471486383140526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning models deployed in healthcare systems face data drawn from
continually evolving environments. However, researchers proposing such models
typically evaluate them in a time-agnostic manner, with train and test splits
sampling patients throughout the entire study period. We introduce the
Evaluation on Medical Datasets Over Time (EMDOT) framework and Python package,
which evaluates the performance of a model class over time. Across five medical
datasets and a variety of models, we compare two training strategies: (1) using
all historical data, and (2) using a window of the most recent data. We note
changes in performance over time, and identify possible explanations for these
shocks.
- Abstract(参考訳): 医療システムにデプロイされた機械学習モデルは、継続的に進化する環境から引き出されたデータに直面する。
しかし、このようなモデルを提案する研究者は、通常、時間に依存しない方法で評価し、トレーニングとテストで患者をサンプリングする。
本稿では,時間とともにモデルクラスの性能を評価するEMDOTフレームワークとPythonパッケージについて紹介する。
5つの医療データセットと各種モデルにまたがって,(1)すべての履歴データの利用,(2)最新のデータのウィンドウの使用,という2つのトレーニング戦略を比較した。
時間とともにパフォーマンスが変化していることに留意し、これらのショックの考えられる説明を特定します。
関連論文リスト
- Membership Inference Attacks Against Time-Series Models [0.8437187555622164]
個人情報を含む時系列データは、特に医療分野において、深刻なプライバシー上の懸念を示す。
時系列モデルにおける既存技術について検討し,季節性に着目した新機能を紹介する。
以上の結果から,MIAによる会員識別の有効性が向上し,医療データアプリケーションにおけるプライバシリスクの理解が向上した。
論文 参考訳(メタデータ) (2024-07-03T07:34:49Z) - A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data [9.57464542357693]
実世界のモデリングパイプラインは、しばしばデータセット固有の前処理と特徴工学を必要とするため、モデル中心の評価は偏りがあることを実証する。
Kaggleコンペティションから10の関連するデータセットを選択し、データセット毎に専門家レベルの前処理パイプラインを実装します。
データセット固有の機能エンジニアリングの後、モデルランキングは大幅に変化し、性能差が減少し、モデル選択の重要性が低下する。
論文 参考訳(メタデータ) (2024-07-02T09:54:39Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - Recent Advances in Predictive Modeling with Electronic Health Records [71.19967863320647]
EHRデータを予測モデリングに利用すると、その特徴からいくつかの課題が生じる。
深層学習は、医療を含む様々な応用においてその優位性を示している。
論文 参考訳(メタデータ) (2024-02-02T00:31:01Z) - MADS: Modulated Auto-Decoding SIREN for time series imputation [9.673093148930874]
我々は,暗黙のニューラル表現に基づく時系列計算のための新しい自動デコードフレームワークMADSを提案する。
実世界の2つのデータセット上で本モデルを評価し,時系列計算における最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-03T09:08:47Z) - Evaluating Model Performance in Medical Datasets Over Time [26.471486383140526]
本研究は,EMDOT(A Evaluation on Medical datasets Over Time)フレームワークを提案する。
バックテストの概念にインスパイアされたEMDOTは、実践者が各時点で実行できたかもしれないトレーニング手順をシミュレートする。
データセットによっては、すべての履歴データを使用するのが理想的な場合が多いのに対して、最新のデータのウィンドウを使用する場合、他のケースでは有利な場合があります。
論文 参考訳(メタデータ) (2023-05-22T19:16:00Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Pre-training transformer-based framework on large-scale pediatric claims
data for downstream population-specific tasks [3.1580072841682734]
本研究は、小児科のクレームデータセット全体をトレーニングする一般的な事前学習モデルであるClaim Pre-Training(Claim-PT)フレームワークを提案する。
効果的な知識伝達はタスク対応微調整段階を通じて完了する。
我々は100万人以上の患者記録を持つ実世界のクレームデータセットの実験を行った。
論文 参考訳(メタデータ) (2021-06-24T15:25:41Z) - Deep learning-based COVID-19 pneumonia classification using chest CT
images: model generalizability [54.86482395312936]
深層学習(DL)分類モデルは、異なる国の3DCTデータセット上で、COVID-19陽性患者を特定するために訓練された。
我々は、データセットと72%の列車、8%の検証、20%のテストデータを組み合わせたDLベースの9つの同一分類モデルを訓練した。
複数のデータセットでトレーニングされ、トレーニングに使用されるデータセットの1つからテストセットで評価されたモデルは、よりよいパフォーマンスを示した。
論文 参考訳(メタデータ) (2021-02-18T21:14:52Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z) - Temporal Phenotyping using Deep Predictive Clustering of Disease
Progression [97.88605060346455]
我々は、時系列データをクラスタリングするためのディープラーニングアプローチを開発し、各クラスタは、同様の将来的な結果を共有する患者から構成される。
2つの実世界のデータセットに対する実験により、我々のモデルは最先端のベンチマークよりも優れたクラスタリング性能が得られることが示された。
論文 参考訳(メタデータ) (2020-06-15T20:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。