論文の概要: On the Importance of Diversity in Re-Sampling for Imbalanced Data and
Rare Events in Mortality Risk Models
- arxiv url: http://arxiv.org/abs/2012.09645v1
- Date: Tue, 15 Dec 2020 09:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 08:51:20.899427
- Title: On the Importance of Diversity in Re-Sampling for Imbalanced Data and
Rare Events in Mortality Risk Models
- Title(参考訳): 不均衡データと希少事象の再サンプリングにおける多様性の重要性について
- Authors: Yuxuan (Diana) Yang, Hadi Akbarzadeh Khorshidi, Uwe Aickelin, Aditi
Nevgi, Elif Ekinci
- Abstract要約: 外科的アウトカムリスクツール(SORT)は、英国の主要な選択的内科手術の期間を通して死亡リスクを予測するために開発されたツールの1つです。
本研究では,データセット内のクラス不均衡に対処することにより,SORT予測モデルの拡張を行う。
提案手法は,共通再サンプリング技術上での多様性に基づく選択の応用について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Surgical risk increases significantly when patients present with comorbid
conditions. This has resulted in the creation of numerous risk stratification
tools with the objective of formulating associated surgical risk to assist both
surgeons and patients in decision-making. The Surgical Outcome Risk Tool (SORT)
is one of the tools developed to predict mortality risk throughout the entire
perioperative period for major elective in-patient surgeries in the UK. In this
study, we enhance the original SORT prediction model (UK SORT) by addressing
the class imbalance within the dataset. Our proposed method investigates the
application of diversity-based selection on top of common re-sampling
techniques to enhance the classifier's capability in detecting minority
(mortality) events. Diversity amongst training datasets is an essential factor
in ensuring re-sampled data keeps an accurate depiction of the
minority/majority class region, thereby solving the generalization problem of
mainstream sampling approaches. We incorporate the use of the Solow-Polasky
measure as a drop-in functionality to evaluate diversity, with the addition of
greedy algorithms to identify and discard subsets that share the most
similarity. Additionally, through empirical experiments, we prove that the
performance of the classifier trained over diversity-based dataset outperforms
the original classifier over ten external datasets. Our diversity-based
re-sampling method elevates the performance of the UK SORT algorithm by 1.4$.
- Abstract(参考訳): 合併症のある患者では外科的リスクが著しく増加する。
この結果、外科医と患者の意思決定を支援するために関連する外科的リスクを定式化する目的で、多数のリスク階層化ツールが作られた。
外科的アウトカムリスクツール(英: Surgery Outcome Risk Tool、SORT)は、イギリスにおける主要な外科手術における周術期を通して死亡リスクを予測するために開発されたツールの1つである。
本研究では,データセット内のクラス不均衡に対処することにより,元のSORT予測モデル(UK SORT)を強化する。
提案手法は,マイノリティ(モータリティ)イベントの検出における分類器の能力を高めるために,共通再サンプリング手法を用いた多様性に基づく選択の適用を検討する。
トレーニングデータセット間の多様性は、マイノリティ/マイジョリティクラス領域の正確な描写を維持するために必要不可欠な要素であり、メインストリームサンプリングアプローチの一般化問題を解決する。
多様性を評価するために,Sollow-Polasky測度をドロップイン機能として利用し,最も類似性の高い部分集合を識別・破棄するgreedyアルゴリズムを追加した。
さらに、実証実験により、多様性に基づくデータセットよりも訓練された分類器の性能が10個の外部データセットよりも優れていることを示す。
多様性に基づく再サンプリング手法により,UK SORTアルゴリズムの性能は1.4ドル向上した。
関連論文リスト
- Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。
PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文 参考訳(メタデータ) (2022-01-26T19:59:14Z) - SurvITE: Learning Heterogeneous Treatment Effects from Time-to-Event
Data [83.50281440043241]
時系列データから不均一な処理効果を推定する問題について検討する。
本稿では,バランス表現に基づく治療特異的ハザード推定のための新しいディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2021-10-26T20:13:17Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z) - Lung Cancer Risk Estimation with Incomplete Data: A Joint Missing
Imputation Perspective [5.64530854079352]
マルチモーダルデータの連成分布をモデル化することで、欠落データの計算に対処する。
本稿では, PBiGAN を用いた新しい条件付き PBiGAN (C-PBiGAN) 法を提案する。
C-PBiGANは, 肺がんのリスク評価において, 代表的計算法と比較して有意に改善した。
論文 参考訳(メタデータ) (2021-07-25T20:15:16Z) - A Deep Variational Approach to Clustering Survival Data [5.871238645229228]
変分深層クラスタリングにおけるクラスタサバイバルデータに対する新しい確率的アプローチを提案する。
提案手法は,説明変数と潜在的に検閲された生存時間の両方の分布を明らかにするために,深い生成モデルを用いている。
論文 参考訳(メタデータ) (2021-06-10T14:10:25Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Deep Cox Mixtures for Survival Regression [11.64579638651557]
本稿では,Cox回帰の学習混合物をモデルとした生存分析回帰モデルに対する新しいアプローチについて述べる。
我々は、複数の実世界のデータセットで実験を行い、民族や性別にまたがる患者の死亡率を調べる。
論文 参考訳(メタデータ) (2021-01-16T22:41:22Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z) - Active Deep Learning on Entity Resolution by Risk Sampling [5.219701379581547]
アクティブラーニング(al)は、モデルトレーニングに有用なデータに焦点を当てた、実現可能なソリューションである。
実体解決のためのリスクサンプリング(ER)の新たなALアプローチを提案する。
ALのコアセット特性に基づいて、非一様連続性によるコアセット損失を最小限に抑える最適化モデルを理論的に導出する。
実データに対する提案手法の有効性を比較検討により実証的に検証した。
論文 参考訳(メタデータ) (2020-12-23T20:38:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。