論文の概要: Survival Prediction from Imbalance colorectal cancer dataset using
hybrid sampling methods and tree-based classifiers
- arxiv url: http://arxiv.org/abs/2309.01783v1
- Date: Mon, 4 Sep 2023 19:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 17:21:14.859596
- Title: Survival Prediction from Imbalance colorectal cancer dataset using
hybrid sampling methods and tree-based classifiers
- Title(参考訳): ハイブリッドサンプリング法と木型分類器を用いた不均衡大腸癌データセットの生存予測
- Authors: Sadegh Soleimani, Mahsa Bahrami, Mansour Vali
- Abstract要約: 本稿では,大腸癌患者の1年,3年,5年生存率を予測するアルゴリズムの開発に焦点をあてる。
そこで本研究では,正の正の確率を高めるために,標準バランス手法のパイプラインを生成する手法を提案する。
本手法は大腸癌患者の死亡率予測を有意に改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Background and Objective: Colorectal cancer is a high mortality cancer.
Clinical data analysis plays a crucial role in predicting the survival of
colorectal cancer patients, enabling clinicians to make informed treatment
decisions. However, utilizing clinical data can be challenging, especially when
dealing with imbalanced outcomes. This paper focuses on developing algorithms
to predict 1-, 3-, and 5-year survival of colorectal cancer patients using
clinical datasets, with particular emphasis on the highly imbalanced 1-year
survival prediction task. To address this issue, we propose a method that
creates a pipeline of some of standard balancing techniques to increase the
true positive rate. Evaluation is conducted on a colorectal cancer dataset from
the SEER database. Methods: The pre-processing step consists of removing
records with missing values and merging categories. The minority class of
1-year and 3-year survival tasks consists of 10% and 20% of the data,
respectively. Edited Nearest Neighbor, Repeated edited nearest neighbor (RENN),
Synthetic Minority Over-sampling Techniques (SMOTE), and pipelines of SMOTE and
RENN approaches were used and compared for balancing the data with tree-based
classifiers. Decision Trees, Random Forest, Extra Tree, eXtreme Gradient
Boosting, and Light Gradient Boosting (LGBM) are used in this article. Method.
Results: The performance evaluation utilizes a 5-fold cross-validation
approach. In the case of highly imbalanced datasets (1-year), our proposed
method with LGBM outperforms other sampling methods with the sensitivity of
72.30%. For the task of imbalance (3-year survival), the combination of RENN
and LGBM achieves a sensitivity of 80.81%, indicating that our proposed method
works best for highly imbalanced datasets. Conclusions: Our proposed method
significantly improves mortality prediction for the minority class of
colorectal cancer patients.
- Abstract(参考訳): 背景と目的:大腸癌は高死亡率がんである。
臨床データ分析は、大腸癌患者の生存を予測する上で重要な役割を担っている。
しかし、特に不均衡な結果を扱う場合、臨床データの利用は困難である。
本稿では,臨床データを用いた大腸癌患者の1~3~5年生存予測アルゴリズムの開発,特に1年生存予測タスクの高度不均衡に着目した。
この問題に対処するために,本研究では,標準バランス手法のパイプラインを作成し,正の率を増加させる手法を提案する。
SEERデータベースから大腸癌データセットを用いて評価を行う。
メソッド: 前処理ステップは、値が足りないレコードを削除し、カテゴリをマージする。
1年3年生存タスクのマイノリティクラスはそれぞれ、データの10%と20%で構成されている。
データをツリーベースの分類器とバランスをとるために, 編集近辺, 再編集近辺 (renn), 合成極小過剰サンプリング技術 (smote) およびsmoteおよびrennアプローチのパイプラインを用いて比較を行った。
本項では, 決定木, ランダムフォレスト, エクストラツリー, eXtreme Gradient Boosting および Light Gradient Boosting (LGBM) を用いる。
方法。
結果: 性能評価は5倍のクロスバリデーションアプローチを用いる。
高度に不均衡なデータセット(1年)の場合,LGBMを用いた提案手法は72.30%の感度で他のサンプリング手法よりも優れる。
不均衡(3年生存)の課題に対して、RENNとLGBMの組み合わせは80.81%の感度を実現し、提案手法は高度不均衡データセットに最適であることを示す。
結論:本手法は大腸癌患者のマイノリティクラスの死亡率予測を有意に改善する。
関連論文リスト
- An Oversampling-enhanced Multi-class Imbalanced Classification Framework for Patient Health Status Prediction Using Patient-reported Outcomes [6.075416560330067]
放射線治療を受けたがん患者から直接収集された患者報告結果(PROs)は、臨床医が潜在的毒性について助言する患者を支援する上で重要な役割を担っている。
本稿では,がん光子・プロトン療法センターのproBoostを用いて,健康状態に関連する患者の予後を予測するためのさまざまな機械学習手法について検討する。
論文 参考訳(メタデータ) (2024-11-16T14:54:18Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - Improving Breast Cancer Grade Prediction with Multiparametric MRI Created Using Optimized Synthetic Correlated Diffusion Imaging [71.91773485443125]
乳がん治療計画において、グレーディングは重要な役割を担っている。
現在の腫瘍グレード法では、患者から組織を抽出し、ストレス、不快感、医療費の上昇につながる。
本稿では,CDI$s$の最適化による乳癌の診断精度の向上について検討する。
論文 参考訳(メタデータ) (2024-05-13T15:48:26Z) - Kernel Cox partially linear regression: building predictive models for
cancer patients' survival [4.230753712933184]
我々はカーネルCox比例ハザード半パラメトリックモデルを構築し、モデルに適合する新しい正規化ニンジン化カーネルマシン(RegGKM)を提案する。
我々はカーネルマシン法を用いて生存率と予測値の複雑な関係を記述し、無関係なパラメトリックおよび非パラメトリック予測値を自動的に除去する。
この結果は、患者を異なる死亡リスクを持つグループに分類し、より良い臨床結果を得るために治療を促進するのに役立つ。
論文 参考訳(メタデータ) (2023-10-11T04:27:54Z) - Development and external validation of a lung cancer risk estimation
tool using gradient-boosting [3.200615329024819]
肺がんは世界中で死亡の重大な原因であり、早期発見が生存率の向上に重要であることを強調している。
我々は,PLCOがんスクリーニング試験のデータに基づいて学習し,NLSTで検証する機械学習(ML)ツールを提案する。
開発されたMLツールは、5年以内に肺がんを発症する可能性を推定するための無償のWebアプリケーションを提供する。
論文 参考訳(メタデータ) (2023-08-23T15:25:17Z) - Pathology-and-genomics Multimodal Transformer for Survival Outcome
Prediction [43.1748594898772]
大腸癌生存予測に病理学とゲノム学的知見を統合したマルチモーダルトランスフォーマー(PathOmics)を提案する。
ギガピクセル全スライド画像における組織ミクロ環境間の内在的相互作用を捉えるための教師なし事前訓練を強調した。
我々は,TCGA大腸癌と直腸癌コホートの両方に対するアプローチを評価し,提案手法は競争力があり,最先端の研究より優れていることを示す。
論文 参考訳(メタデータ) (2023-07-22T00:59:26Z) - Multimodal Deep Learning for Personalized Renal Cell Carcinoma
Prognosis: Integrating CT Imaging and Clinical Data [3.790959613880792]
腎細胞癌は生存率の低い重要な世界的な健康上の課題である。
本研究の目的は, 腎細胞癌患者の生存確率を予測できる包括的深層学習モデルを考案することであった。
提案フレームワークは,3次元画像特徴抽出器,臨床変数選択,生存予測の3つのモジュールから構成される。
論文 参考訳(メタデータ) (2023-07-07T13:09:07Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z) - Gene selection from microarray expression data: A Multi-objective PSO
with adaptive K-nearest neighborhood [0.0]
本稿では,遺伝子発現データを用いたヒト癌疾患の分類問題について論じる。
マイクロアレイデータセットを解析し,がん疾患を効果的に分類するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-05-27T04:22:10Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Increasing the efficiency of randomized trial estimates via linear
adjustment for a prognostic score [59.75318183140857]
ランダム化実験による因果効果の推定は臨床研究の中心である。
歴史的借用法のほとんどは、厳格なタイプiエラー率制御を犠牲にして分散の削減を達成する。
論文 参考訳(メタデータ) (2020-12-17T21:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。