論文の概要: Survival Prediction from Imbalance colorectal cancer dataset using
hybrid sampling methods and tree-based classifiers
- arxiv url: http://arxiv.org/abs/2309.01783v1
- Date: Mon, 4 Sep 2023 19:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 17:21:14.859596
- Title: Survival Prediction from Imbalance colorectal cancer dataset using
hybrid sampling methods and tree-based classifiers
- Title(参考訳): ハイブリッドサンプリング法と木型分類器を用いた不均衡大腸癌データセットの生存予測
- Authors: Sadegh Soleimani, Mahsa Bahrami, Mansour Vali
- Abstract要約: 本稿では,大腸癌患者の1年,3年,5年生存率を予測するアルゴリズムの開発に焦点をあてる。
そこで本研究では,正の正の確率を高めるために,標準バランス手法のパイプラインを生成する手法を提案する。
本手法は大腸癌患者の死亡率予測を有意に改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Background and Objective: Colorectal cancer is a high mortality cancer.
Clinical data analysis plays a crucial role in predicting the survival of
colorectal cancer patients, enabling clinicians to make informed treatment
decisions. However, utilizing clinical data can be challenging, especially when
dealing with imbalanced outcomes. This paper focuses on developing algorithms
to predict 1-, 3-, and 5-year survival of colorectal cancer patients using
clinical datasets, with particular emphasis on the highly imbalanced 1-year
survival prediction task. To address this issue, we propose a method that
creates a pipeline of some of standard balancing techniques to increase the
true positive rate. Evaluation is conducted on a colorectal cancer dataset from
the SEER database. Methods: The pre-processing step consists of removing
records with missing values and merging categories. The minority class of
1-year and 3-year survival tasks consists of 10% and 20% of the data,
respectively. Edited Nearest Neighbor, Repeated edited nearest neighbor (RENN),
Synthetic Minority Over-sampling Techniques (SMOTE), and pipelines of SMOTE and
RENN approaches were used and compared for balancing the data with tree-based
classifiers. Decision Trees, Random Forest, Extra Tree, eXtreme Gradient
Boosting, and Light Gradient Boosting (LGBM) are used in this article. Method.
Results: The performance evaluation utilizes a 5-fold cross-validation
approach. In the case of highly imbalanced datasets (1-year), our proposed
method with LGBM outperforms other sampling methods with the sensitivity of
72.30%. For the task of imbalance (3-year survival), the combination of RENN
and LGBM achieves a sensitivity of 80.81%, indicating that our proposed method
works best for highly imbalanced datasets. Conclusions: Our proposed method
significantly improves mortality prediction for the minority class of
colorectal cancer patients.
- Abstract(参考訳): 背景と目的:大腸癌は高死亡率がんである。
臨床データ分析は、大腸癌患者の生存を予測する上で重要な役割を担っている。
しかし、特に不均衡な結果を扱う場合、臨床データの利用は困難である。
本稿では,臨床データを用いた大腸癌患者の1~3~5年生存予測アルゴリズムの開発,特に1年生存予測タスクの高度不均衡に着目した。
この問題に対処するために,本研究では,標準バランス手法のパイプラインを作成し,正の率を増加させる手法を提案する。
SEERデータベースから大腸癌データセットを用いて評価を行う。
メソッド: 前処理ステップは、値が足りないレコードを削除し、カテゴリをマージする。
1年3年生存タスクのマイノリティクラスはそれぞれ、データの10%と20%で構成されている。
データをツリーベースの分類器とバランスをとるために, 編集近辺, 再編集近辺 (renn), 合成極小過剰サンプリング技術 (smote) およびsmoteおよびrennアプローチのパイプラインを用いて比較を行った。
本項では, 決定木, ランダムフォレスト, エクストラツリー, eXtreme Gradient Boosting および Light Gradient Boosting (LGBM) を用いる。
方法。
結果: 性能評価は5倍のクロスバリデーションアプローチを用いる。
高度に不均衡なデータセット(1年)の場合,LGBMを用いた提案手法は72.30%の感度で他のサンプリング手法よりも優れる。
不均衡(3年生存)の課題に対して、RENNとLGBMの組み合わせは80.81%の感度を実現し、提案手法は高度不均衡データセットに最適であることを示す。
結論:本手法は大腸癌患者のマイノリティクラスの死亡率予測を有意に改善する。
関連論文リスト
- Kernel Cox partially linear regression: building predictive models for
cancer patients' survival [4.230753712933184]
我々はカーネルCox比例ハザード半パラメトリックモデルを構築し、モデルに適合する新しい正規化ニンジン化カーネルマシン(RegGKM)を提案する。
我々はカーネルマシン法を用いて生存率と予測値の複雑な関係を記述し、無関係なパラメトリックおよび非パラメトリック予測値を自動的に除去する。
この結果は、患者を異なる死亡リスクを持つグループに分類し、より良い臨床結果を得るために治療を促進するのに役立つ。
論文 参考訳(メタデータ) (2023-10-11T04:27:54Z) - Enhancing Mortality Prediction in Heart Failure Patients: Exploring
Preprocessing Methods for Imbalanced Clinical Datasets [0.0]
心不全 (Heart failure, HF) は、患者の管理決定を導く上で、死亡率の正確な予測が重要な役割を果たす重要な疾患である。
本稿では,スケーリング,アウトレーヤ処理,再サンプリングを含む包括的事前処理フレームワークを提案する。
適切な前処理技術と機械学習(ML)アルゴリズムを活用することで,HF患者の死亡予測性能を向上させることを目指す。
論文 参考訳(メタデータ) (2023-09-30T18:31:15Z) - Development and external validation of a lung cancer risk estimation
tool using gradient-boosting [3.200615329024819]
肺がんは世界中で死亡の重大な原因であり、早期発見が生存率の向上に重要であることを強調している。
我々は,PLCOがんスクリーニング試験のデータに基づいて学習し,NLSTで検証する機械学習(ML)ツールを提案する。
開発されたMLツールは、5年以内に肺がんを発症する可能性を推定するための無償のWebアプリケーションを提供する。
論文 参考訳(メタデータ) (2023-08-23T15:25:17Z) - Multimodal Deep Learning for Personalized Renal Cell Carcinoma
Prognosis: Integrating CT Imaging and Clinical Data [3.790959613880792]
腎細胞癌は生存率の低い重要な世界的な健康上の課題である。
本研究の目的は, 腎細胞癌患者の生存確率を予測できる包括的深層学習モデルを考案することであった。
提案フレームワークは,3次元画像特徴抽出器,臨床変数選択,生存予測の3つのモジュールから構成される。
論文 参考訳(メタデータ) (2023-07-07T13:09:07Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z) - Clinical Deterioration Prediction in Brazilian Hospitals Based on
Artificial Neural Networks and Tree Decision Models [56.93322937189087]
超強化ニューラルネットワーク(XBNet)は臨床劣化(CD)を予測するために用いられる
XGBoostモデルはブラジルの病院のデータからCDを予測する最良の結果を得た。
論文 参考訳(メタデータ) (2022-12-17T23:29:14Z) - Gene selection from microarray expression data: A Multi-objective PSO
with adaptive K-nearest neighborhood [0.0]
本稿では,遺伝子発現データを用いたヒト癌疾患の分類問題について論じる。
マイクロアレイデータセットを解析し,がん疾患を効果的に分類するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-05-27T04:22:10Z) - Robust and Agnostic Learning of Conditional Distributional Treatment
Effects [62.44901952244514]
条件平均治療効果(CATE)は、個々の因果効果の最適点予測である。
集約分析では、通常は分布処理効果(DTE)の測定によって対処される。
我々は,多種多様な問題に対して条件付きDTE(CDTE)を学習するための,新しい堅牢でモデルに依存しない手法を提供する。
論文 参考訳(メタデータ) (2022-05-23T17:40:31Z) - Assessment of Treatment Effect Estimators for Heavy-Tailed Data [70.72363097550483]
ランダム化制御試験(RCT)における治療効果の客観的評価における中心的な障害は、その性能をテストするための基礎的真理(または検証セット)の欠如である。
この課題に対処するための新しいクロスバリデーションのような方法論を提供する。
本手法は,Amazonサプライチェーンに実装された709RCTに対して評価を行った。
論文 参考訳(メタデータ) (2021-12-14T17:53:01Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Increasing the efficiency of randomized trial estimates via linear
adjustment for a prognostic score [59.75318183140857]
ランダム化実験による因果効果の推定は臨床研究の中心である。
歴史的借用法のほとんどは、厳格なタイプiエラー率制御を犠牲にして分散の削減を達成する。
論文 参考訳(メタデータ) (2020-12-17T21:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。