論文の概要、ライセンス

# (参考訳) 生存データの機械学習モデルを用いた説明変数に関連する危険率の計算 [全文訳有]

Computing the Hazard Ratios Associated with Explanatory Variables Using Machine Learning Models of Survival Data ( http://arxiv.org/abs/2102.00637v1 )

ライセンス: CC BY 4.0
Sameer Sundrani and James Lu(参考訳) 目的: Cox Proportional Hazards (CoxPH) モデルの生存データへの適用, および Hazard Ratio (HR) の導出が良好に確立されている。 木をベースとした非線形機械学習(ML)モデルが生存分析に適用されているが、これらのモデルから説明変数に関連付けられたHRを計算するための方法論は存在しない。 予測に対する説明変数の寄与を定量化する局所的正確で一貫性のある手法であるShapley additive explanation (SHAP)値を用いて,木ベースのMLモデルからHRを計算する新しい方法を提案する。 方法: 大腸癌、乳癌、膵臓癌の患者から得られた3組の生存データを用いて、CoxPHの性能を最先端のMLモデルであるXGBoostと比較した。 XGBoostモデルから説明変数のHRを計算するために、SHAP値は指数化され、2つのサブグループの平均の比率が計算された。 信頼区間は、トレーニングデータをブートストラップし、MLモデルを1000回生成することで計算された。 3つのデータセット全体で、すべての説明変数のHRを体系的に比較した。 PythonとRのオープンソースライブラリが分析に使用された。 結果: 大腸癌群と乳癌群では, CoxPH と XGBoost のパフォーマンスは同等であり, HR の整合性は良好であった。 Pan-cancerデータセットでは、ほとんどの変数の一致を示しましたが、CoxPHとXGBoostの結果の間の2つの説明変数の反対の発見も示しました。 その後のKaplan-MeierプロットはXGBoostモデルの発見を支持した。 結論: MLモデルからのHRの導出は,複雑な生存データセットからの危険因子の同定を改善し,臨床試験の結果を予測するのに役立つ。

Purpose: The application of Cox Proportional Hazards (CoxPH) models to survival data and the derivation of Hazard Ratio (HR) is well established. While nonlinear, tree-based Machine Learning (ML) models have been developed and applied to the survival analysis, no methodology exists for computing HRs associated with explanatory variables from such models. We describe a novel way to compute HRs from tree-based ML models using the Shapley additive explanation (SHAP) values, which is a locally accurate and consistent methodology to quantify explanatory variables' contribution to predictions. Methods: We used three sets of publicly available survival data consisting of patients with colon, breast or pan cancer and compared the performance of CoxPH to the state-of-art ML model, XGBoost. To compute the HR for explanatory variables from the XGBoost model, the SHAP values were exponentiated and the ratio of the means over the two subgroups calculated. The confidence interval was computed via bootstrapping the training data and generating the ML model 1000 times. Across the three data sets, we systematically compared HRs for all explanatory variables. Open-source libraries in Python and R were used in the analyses. Results: For the colon and breast cancer data sets, the performance of CoxPH and XGBoost were comparable and we showed good consistency in the computed HRs. In the pan-cancer dataset, we showed agreement in most variables but also an opposite finding in two of the explanatory variables between the CoxPH and XGBoost result. Subsequent Kaplan-Meier plots supported the finding of the XGBoost model. Conclusion: Enabling the derivation of HR from ML models can help to improve the identification of risk factors from complex survival datasets and enhance the prediction of clinical trial outcomes.
公開日: Mon, 1 Feb 2021 05:02:31 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Computing the Hazard Ratios Associated with Explanatory Variables Using 説明変数に関連付けられた危険率の計算 0.73
Machine Learning Models of Survival Data 生存データの機械学習モデル 0.80
Authors: Sameer Sundrani1,2, James Lu1* 著者:Sameer Sundrani1,2, James Lu1* 0.69
Affiliations: アフィリエーション: 0.57
1Modeling & Simulation/Clinical Pharmacology, Genentech, South San Francisco, 1 Modeling & Simulation/Clinical Phharmacology, Genentech, South San Francisco 0.93
California 2Biomedical Computation, Schools of Engineering and Medicine, Stanford University, カリフォルニア 2スタンフォード大学工学・医学部生物医学計算 0.66
Stanford, California カリフォルニア州スタンフォード 0.64
*Corresponding author: James Lu Genentech, 1 DNA Way, South San Francisco, CA, 94080 Email: lu.james@gene.com Phone: 650-6199325 ※著者:James Lu Genentech, 1 DNA Way, South San Francisco, CA, 94080 Email: lu.james@gene.com Phone: 650-6199325 0.95
英語(論文から抽出)日本語訳スコア
ABSTRACT (275 words max) Purpose: The application of Cox Proportional Hazards (CoxPH) models to survival data abstract (275 words max) purpose: the application of cox proportional hazards (coxph) model to survival data (英語) 0.84
and the derivation of Hazard Ratio (HR) is well established. そしてHazard Ratio(HR)の派生はよく確立されています。 0.60
While nonlinear, tree-based 非線形でツリーベースで 0.63
Machine Learning (ML) models have been developed and applied to the survival 機械学習(ml)モデルが開発され、生存に応用されている 0.79
analysis, no methodology exists for computing HRs associated with explanatory 分析,説明を伴う人事計算のための方法論は存在しない 0.68
variables from such models. このようなモデルの変数です 0.66
We describe a novel way to compute HRs from tree-based 木をベースとしたHRの計算手法について述べる。 0.56
ML models using the Shapley additive explanation (SHAP) values, which is a locally Shapley additive description (SHAP) 値を用いたMLモデル。 0.60
accurate and consistent methodology to quantify explanatory variables’ contribution to 説明変数の貢献を定量化する正確で一貫した方法論 0.71
predictions. Methods: We used three sets of publicly available survival data consisting of patients 予測だ 方法:患者からなる公開生存データを3セット使用した。 0.72
with colon, breast or pan cancer and compared the performance of CoxPH to the state- 大腸、乳房または膵臓癌で、CoxPHのパフォーマンスを状態と比較しました。 0.68
of-art ML model, XGBoost. 最先端のMLモデル、XGBoost。 0.65
To compute the HR for explanatory variables from the から説明変数の HR を計算します。 0.75
XGBoost model, the SHAP values were exponentiated and the ratio of the means over xgboostモデル、shap値は指数値であり、平均の比率は超過した 0.72
the two subgroups calculated. 計算された2つのサブグループです 0.50
The confidence interval was computed via bootstrapping 信頼区間はブートストラップで計算され 0.70
the training data and generating the ML model 1000 times. トレーニングデータとMLモデルを1000回生成します。 0.77
Across the three data sets, 3つのデータセットにまたがって 0.80
we systematically compared HRs for all explanatory variables. 全説明変数のHRを系統的に比較した。 0.60
Open-source libraries in オープンソースのライブラリ 0.83
Python and R were used in the analyses. 分析にはPythonとRが用いられた。 0.84
Results: For the colon and breast cancer data sets, the performance of CoxPH and 結果:結腸および乳がんデータセットの場合、CoxPHおよびCoxPHのパフォーマンス。 0.72
XGBoost were comparable and we showed good consistency in the computed HRs. XGBoostは同等であり,計算されたHRの整合性は良好であった。 0.59
In the pan-cancer dataset, we showed agreement in most variables but also an opposite 内 パン・カンサーのデータセットは ほとんどの変数で一致しましたが 反対に 0.59
finding in two of the explanatory variables between the CoxPH and XGBoost result. CoxPHとXGBoostの結果の間の説明変数の2つを見つけます。 0.81
Subsequent Kaplan-Meier plots supported the finding of the XGBoost model. その後のKaplan-MeierプロットはXGBoostモデルの発見を支持した。 0.60
英語(論文から抽出)日本語訳スコア
Conclusion: Enabling the derivation of HR from ML models can help to improve the 結論: ML モデルから HR を派生させることは、その改善に役立ちます。 0.65
identification of risk factors from complex survival datasets and enhance the prediction 複雑生存データセットからの危険因子の同定と予測の強化 0.87
of clinical trial outcomes. 臨床試験の結果です 0.65
英語(論文から抽出)日本語訳スコア
INTRODUCTION (1) The use of Cox Proportional Hazards (CoxPH) model to survival data is well 導入 (1) Cox Proportional Hazards(CoxPH)モデルによる生存データの利用は良好である 0.74
established.1,2 In particular, the hazard function for a patient i with the vector of 確立された.1,2 特に、ベクトルを持つ患者iの危険関数 0.83
explanatory variables 𝒙𝒊=(𝑥&’,𝑥)’,...,𝑥+’) can be expressed as: ℎ’(𝑡)=𝑒𝑥𝑝(𝛽&𝑥&’+𝛽)𝑥)’+...+𝛽+𝑥+’)×ℎ4(𝑡), where ℎ4(𝑡) is the baseline hazard function and 𝛽 the vector of coefficients of explanatory variables. 説明変数 xi=(x&’,x)’,...,x+’) は次のように表現できる: h’(t)=exp(β&x&’+β)x)’++β+x+’)×h4(t) ここで、h4(t) はベースラインハザード関数であり、β は説明変数の係数のベクトルである。 0.87
Once the coefficient vector 𝛽 is estimated from the survival data, hazard ℎ4(𝑡).1 That is, the hazard ratios (HRs) and the corresponding confidence 生存データから係数ベクトルβが推定されると、ハザードh4(t.1)、すなわちハザード比(HRs)とそれに対応する自信が生じる。 0.75
it can be interpreted as the logarithms of the ratio of the hazard of death to the baseline 死の危険度とベースラインの比率の対数として解釈できます 0.61
intervals with respect to the explanatory variables can be directly obtained from the 説明変数に関する間隔は、それらから直接得ることができる。 0.75
coefficient vector of the fitted model. 適合モデルの係数ベクトル。 0.61
The ease of interpretation of the CoxPH model CoxPHモデルの解釈の容易さ 0.67
results underlies its popularity and broad acceptance in the medical community. 結果は医学のコミュニティの人気そして広い受諾を支えます。 0.73
Recent years have witnessed a significant increase in the use of machine 近年、機械の使用が大幅に増加しています。 0.80
learning (ML) in the healthcare setting3 and this interest has spurred the development of 医療環境3における学習(ML)とその関心が発展に拍車をかけた 0.76
a wide variety of ML methodologies for survival data.4 Within the field of oncology, 腫瘍学の分野では、生存データのための幅広いML方法論。 0.67
several research efforts have demonstrated how ML can complement statistical and mlが統計学と統計学をいかに補完するか 0.50
mechanistic modeling analysis of data.5-8 While ML has the potential to transform mlが変換する可能性を秘めたdata.5-8の機械モデル解析 0.66
oncology9, there are a number of obstacles to its broader adoption. oncology9、その広範な採用には多くの障害があります。 0.69
One key challenge is that of gaining the trust of clinicians through its interpretability. 課題の1つ その解釈能力によって臨床医の信頼を得ることです。 0.66
In particular, while 特にその間は 0.74
英語(論文から抽出)日本語訳スコア
nonlinear ensemble methods such as random forests10 and XGBoost11 have the benefit ランダムフォレスト10やXGBoost11のような非線形アンサンブル手法の利点 0.76
of improved predictions through aggregation of individual trees that can capture more より多くを捕獲できる 個々の木々の集合を通して 予測を改良し 0.72
complex interactions, they also have the drawback of being less interpretable as a result 複雑な相互作用は 結果として解釈しにくいという欠点もあります 0.83
of those complex aggregations.9 However, recent advances in explainability have 9) しかし 説明可能性の最近の進歩は 0.49
helped to elucidate these models and extract insights.9 Prominent amongst those is the これらのモデルを解明し 洞察を抽出する手助けをしました 0.71
development of SHapley Additive exPlanations (SHAP), which provides optimal 最適を提供するSHapley Additive exPlanations(SHAP)の開発。 0.81
explanations of nonlinear tree-based ML models based on game theory.12 In particular, ゲーム理論に基づく非線形木ベースmlモデルの解説,特に12 0.82
SHAP values demonstrate local accuracy and consistency.12 In the medical context, the SHAP値は局所的精度と一貫性を示す。12医学的文脈では、 0.63
use of SHAP values have been demonstrated with ML analysis of clinical data from the 臨床データのML解析によるSHAP値の使用が実証されている。 0.77
National Health and Nutrition Examination Survey (NHANES) I Epidemiologic Follow-up nhanes (national health and nutrition examination survey) i epidemiologic follow-up 0.83
Study13 as well as from the Chronic Renal Insufficiency Cohort (CRIC) study.12 Within 研究13と慢性腎不全コホート(CRIC)研究から12 0.63
the field of oncology, SHAP analysis has found application in the analysis of overall 腫瘍学、シェープ分析の分野は、全体の分析に応用されている。 0.66
survival (OS) in 372,808 prostate cancer patients by helping to interpret the predictions 372,808人の前立腺癌患者の生存(OS)予測の解釈を助ける 0.91
and visualize interactions between explanatory variables of XGBoost, a tree-based ML ツリーベースのMLであるXGBoostの説明変数間の相互作用を可視化する 0.68
model.6 The nonlinear relationships inferred from SHAP analysis were subsequently Model.6 SHAP解析から推定される非線形関係 0.88
confirmed using Kaplan-Meier estimates and CoxPH6, and supported by prior literature. Kaplan-Meier見積とCoxPH6を使用して確認し、以前の文献でサポートされています。 0.48
Despite the advances offered by SHAP analysis to explain predictions of SHAP分析による予測の進歩にもかかわらず。 0.77
nonlinear ML models, as has been noted6 there is currently no established way to 非線形MLモデル(注6)は現在確立されていない。 0.74
interpret statistical significance of explanatory variables from ML models in a manner MLモデルからの説明変数の統計的意義をある意味で解釈する 0.84
comparable to p-values from CoxPH models, pointing to a need for further CoxPHモデルのp値に匹敵し、さらなる必要性を示している 0.75
development. Indeed, this current limitation of reporting the significance of explanatory 開発。 実際 説明の重要性を報告する現在の制限は 0.75
variables inferred from ML models prevented a direct comparison of CoxPH against ML MLモデルから推定された変数は、CoxPHとMLの直接比較を妨げた 0.69
英語(論文から抽出)日本語訳スコア
models.8 In this work, we propose a way to compute from ML models of patient survival モデル.8 本研究では、患者生存のMLモデルから計算する方法を提案する。 0.84
data the HR and the confidence intervals (CI) for how explanatory variables affect OS. 説明変数がOSに与える影響について、HRと信頼区間(CI)をデータ化する。 0.69
We demonstrate that the built-in properties of SHAP values12 enable, not only an SHAP 値 12 の組み込みプロパティが有効であることを示します。 0.66
interpretation of how ML models utilize the explanatory variables, but also a quantitation MLモデルがどのように説明変数を利用するかの解釈。 0.71
of the explanatory variables’ impact on the hazard function. 説明変数がハザード関数に与える影響の1つです。 0.62
By bootstrapping the ML via MLをブートストラップすることで 0.66
resampling the training data, one can additionally derive the CI of the HR. トレーニングデータを再サンプリングすることで、HRのCIも引き出すことができる。 0.68
We demonstrate the proposed methodology on three publicly available patient survival 私たち 患者生存に関する3つの提案方法の実証 0.69
datasets for the following respective cancer types: breast14, colon15, and pan-cancer.16 がんの種類別データセット: breast14, colon15, pan-cancer.16 0.81
METHODS Simulated Dataset 方法 シミュレーションデータセット 0.57
As a consistency check of our proposed methodology, we simulated a survival 提案手法の一貫性チェックとして,生存をシミュレートした。 0.72
dataset of 850 synthetic subjects (an arbitrary number to produce a sizeable dataset) 850の合成対象のデータセット(大きなデータセットを生成する任意の数) 0.85
with three binary explanatory variables (‘var1’, ‘var2’, and ‘var3’) where the linear 3つのバイナリ説明変数(‘var1’、‘var2’、‘var3’)を持つ。 0.78
coefficients were set to 𝛽678&=1, 𝛽678)=−2, and 𝛽678<=2. 係数はβ678&=1, β678)=−2, β678<=2。 0.84
In this dataset, 20% of このデータセットでは20%が 0.76
subjects were right-censored and simulated patients were allowed to take survival times 被験者は右検閲を受け、模擬患者は生存時間が許された 0.56
ranging over 10,000 days. 10,000日にわたる範囲。 0.64
We created this dataset utilizing the R ‘sim.survdata’ r ‘sim.survdata’を使ってこのデータセットを作成しました 0.57
package (see code contained in Supplementary Data32).17 パッケージ(補足データ32に含まれるコードを参照)17 0.78
Publicly available Datasets 一般公開データセット 0.64
In this work, we’ve applied the proposed methodology on the three data sets 本研究では,提案手法を3つのデータセットに適用した。 0.81
detailed as follows. The breast cancer survival dataset14 is drawn from a prospective 詳細は以下の通り。 乳がん生存データセット14は、将来性から引き出される 0.72
study performed by the German Breast Cancer Study Group analyzing traditional ドイツ乳癌研究グループによって伝統的に分析された研究 0.79
英語(論文から抽出)日本語訳スコア
prognostic factors in patients with node-positive breast cancer. リンパ節陽性乳癌患者の予後因子。 0.63
The authors originally applied a fractional polynomial model to predict the clinical progression of studied 著者はもともと 臨床経過を予測するために分数多項式モデルを適用した 0.74
patients. The colon cancer15 dataset describes survival results from one of the first 患者さん 大腸がん15データセットは、最初の1例の生存結果を記述している 0.66
successful adjuvant chemotherapy trials for colon cancer. 大腸癌のアジュバント化学療法を成功させました 0.61
In this study, patients with この研究では、患者。 0.81
stage B and C colorectal carcinoma were randomly assigned to three treatment groups: B期およびC期大腸癌はランダムに3つの治療群に割り当てられた。 0.63
no further treatment, treatment with levamisole alone, or treatment with levamisole and さらなる治療、レバミソール単独による治療、レバミソールによる治療はない。 0.62
fluorouracil. While this dataset included both recurrence and death records for each フルオロウラシル このデータセットには 再発記録と死亡記録の両方が含まれていましたが 0.42
patient, we only examined those records for death. 患者さん 死亡記録を調べただけです 0.55
Finally, the pan-cancer16 data is 最後に Pan-Cancer16 データは 0.73
drawn from a recent analysis of sequencing data from The Cancer Genome Atlas The Cancer Genome Atlasのシークエンシングデータから得られた最近の解析 0.82
(TCGA) to further new diagnostics and individualized cancer treatments. さらなる新しい診断と個別化がん治療への(TCGA)。 0.74
The authors reported findings of 127 significantly mutated genes (SMGs) from a systematic analysis 作者 系統解析による137の有意変異遺伝子(SMGs)の検出 0.54
of 3281 tumors across 12 cancer types and examined correlations of clinical features 12種類の癌にまたがる3281個の腫瘍と臨床像の相関についての検討 0.68
with somatic events across these 127 SMGs within multiple tumor types. 多発性腫瘍内の127個のSMGの体性イベント。 0.69
In all datasets, 全てのデータセットで 0.81
we used all available valid patient survival data for ML. 有効患者生存データはすべてMLに使用した。 0.72
Derivation of HR from SHAP values SHAP値からのHRの導出 0.79
In the ML approach for Cox survival modeling, the hazard function for a patient i CoxサバイバルモデリングのためのMLアプローチにおいて、患者iのハザード関数 0.68
with the vector of explanatory variables 𝒙𝒊=(𝑥&’,𝑥)’,...,𝑥+’) can be expressed as: ℎ’(𝑡)=𝑒𝑥𝑝(𝑓(𝑥’))×ℎ4(𝑡), 説明変数 xi=(x&’,x)’,...,x+’) のベクトルは、次のように表現できる: h’(t)=exp(f(x’))×h4(t)。 0.78
(2) (2) 0.85
英語(論文から抽出)日本語訳スコア
interpret. following manner: 解釈。 以下の通りです 0.63
where the function 𝑓 is approximated by the ML model. ここで関数 f は ML モデルによって近似される。 0.82
For instance, in the case of XGBoost, 𝑓 is approximated by an ensemble of trees, which is typically complex to Through SHAP analysis [Lundberg 2020], the function 𝑓 is decomposed into the 𝑓(𝑥’)=𝜙4+∑ +@A& where 𝜙@(𝑓,𝑥’)is the SHAP-value of explanatory variable j for patient i. 例えば、XGBoost の場合、f は木々の集合によって近似され、通常は SHAP 解析 [Lundberg 2020] を通して、関数 f は f(x’)=φ4+\ +@A& に分解されるが、φ@(f,x’) は患者 i に対する説明変数 j の SHAP-値である。 0.78
Via eqn. (2), we ℎ’(𝑡)=𝑒𝑥𝑝(𝜙&(𝑓,𝑥’))×𝑒𝑥𝑝(𝜙)(𝑓,𝑥’))×...×𝑒𝑥𝑝(𝜙4)×ℎ4(𝑡), 𝑒𝑥𝑝(𝜙@(𝑓,𝑥’)) over patients i within subgroups (for instance, patients who are either eqn経由。 2)h’(t)=exp(φ&(f,x’))×exp(φ)(f,x’))×...×exp(φ4)×h4(t),exp(φ@(f,x’))はサブグループ内のi患者(例えば、いずれかの患者)よりも多い。 0.69
which shows that the HR associated with variable j can be computed from averaging 変数 j に関連付けられた HR を平均値から計算できることを示します。 0.73
can then express the hazard function as: 次にハザード関数を次のように表現できます 0.45
𝜙@(𝑓,𝑥’) , 𝜙@(𝑓,𝑥’) , 0.85
(4) (3) positive or negative for a genetic mutation) in a manner analogous to CoxPH. (4) (3) 遺伝的変異に対する正または負)CoxPHに類似した方法で。 0.83
Data Preparation and Modeling データ作成とモデリング 0.71
All R and Python code used to generate results and figures are available in the 結果と数値を生成するために使用されるすべての R および Python コードが利用できます。 0.69
Supplementary Data32 (see the code contained therein). 補足Data32 (コードはこちらを参照)。 0.68
Initial dataset preparation and 初期データセット作成及び 0.85
CoxPH modeling was done in R (Version 4.0.2) utilizing the ‘survival’ package.18 CoxPHモデリングは、R(Version 4.0.2)で'survival'パッケージを使用して行われた。 0.63
英語(論文から抽出)日本語訳スコア
Subsequent XGBoost modeling was performed in Python (Version 3.7) using the その後、XGBoostモデリングはPython(Version 3.7)で実行された。 0.67
‘xgboost’ and ‘shap’ packages and evaluated in part with the ‘scikit-learn’ library.11,19 xgboost' と 'shap' パッケージと ‘scikit-learn' ライブラリの一部としての評価.11,19 0.76
On each of the datasets, string-based categorical variables were transformed データセットごとに、文字列ベースのカテゴリ変数が変換された 0.63
into numerical values, and each continuous variable was normalized by the range of its それぞれの連続変数はその範囲によって正規化されました 0.74
respective values to the range [0,1]. 範囲 [0,1] のそれぞれの値。 0.84
To run survival prediction in XGBoost, the survival xgboostで生存予測を行うには 0.57
time in the original dataset, 𝑇’, for each patient 𝑖 was transformed to 𝑇′’ according to their censoring information where 𝐶’=1 if patient 𝑖 was not censored and 𝐶’=−1 𝑇′’= 𝐶’ ⨉ 𝑇’. c’=1 では、i が検閲されていなければ、c’=−1 t′’=c’ が検閲され、c’=−1 t′’=c’ が検閲情報に従って、i は t′' に変換された。
訳抜け防止モード: 元のデータセット t ′ の時間 それぞれの患者について、c’=1 が検閲されていない場合の検閲情報に従って、私は t′' に変換された。 and 𝐶’=−1 𝑇′’= 𝐶 ’ ⨉ 𝑇 ’ .
0.81
otherwise. (5) さもなければ (5) 0.68
For the breast cancer dataset, we did not include the date of diagnosis (‘diagdate’) or 乳がんデータセットについては,診断日(診断日)や診断日を含まない。 0.63
date of recurrence (‘recdate’) variables as these were dates, and for the Colon Cancer 再発の日付(’recdate’)変数は、これらが日付であり、大腸癌のためである。 0.72
dataset we did not include the ‘study’ variable as this was a constant. これは定数であるため、‘study’変数を含まないデータセットです。 0.79
In the pan-cancer in the pan‐cancer 0.73
dataset, we included all covariates except for ‘Tumor.grade’ (due to most of the values データセットには‘Tumor.grade’以外のすべての共変量が含まれていました(ほとんどの値のためです)。 0.54
being missing), and performed one-hot encoding for each of the tumor types.20 Patients 欠損している) 腫瘍の種類ごとに1ホットのエンコーディングを行った。20人の患者 0.67
that did not have appropriate survival information (such as missing survival or censoring 適切な生存情報を持っていなかった(生存の欠如や検閲など) 0.79
dates) were excluded from the data. 日付)はデータから除外された。 0.77
We also tested three variations of the pan-cancer パン癌の3種類の検査も行いました。 0.53
dataset: (1) including all covariates without imputations; (2) including all covariates with データセット:(1)すべての共変量を含むこと、(2)すべての共変量を含むこと 0.61
imputations; (3) not including any gene mutation information. インプテーション;(3)いかなる遺伝子変異情報も含まない。 0.76
For the simulated linear 線形シミュレーションのために 0.84
survival dataset, we estimated all three binary variables: ‘var1’, ‘var2’, and ‘var3’ with 生存データセットでは、'var1'、'var2'、'var3'の3つのバイナリ変数をそれぞれ推定しました。 0.78
preset coefficients as mentioned above. 上記のように事前設定係数。 0.67
英語(論文から抽出)日本語訳スコア
All XGBoost models were trained using the survival:cox objective function. 全てのXGBoostモデルはサバイバル:cox目的関数を用いて訓練された。 0.74
Additionally, for each dataset, hyperparameter tuning was performed using the さらに、データセットごとにハイパーパラメータチューニングが実行される。 0.73
HyperOpt package22 with 100 evaluation rounds in accordance with parameter ranges パラメータ範囲に応じて100評価ラウンドを持つHyperOpt Package22。 0.83
that have been previously used in the literature21, with the exception of capping the min_child_weight (minimum sum of instance weight), reg_alpha (L1 regularization term on weights) and reg_lambda (L2 regularization term on weights) at min_child_weight(インスタンス重量の最小和)、reg_alpha(重量のl1正規化項)、reg_lambda(重量のl2正規化項)をキャッピングすることを除いて、文献21で以前に使用されていたもの
訳抜け防止モード: min_child_weight (例重の最小和)をキャップする例外を除いて、以前文学21で使用されたもの。 reg_alpha (L1 regularization term on weights ) および reg_lambda (L2 regularization term on weights )
0.88
10 rather 100. As the objective function for hyperparameter tuning, we computed the 10点100点。 ハイパーパラメータチューニングの目的関数として計算しました。 0.66
mean Harrell’s concordance index (C-index) 23 using the 5-fold cross validation mean harrell's concordance index (c-index) 23 using the 5-fold cross validation (英語) 0.77
approach. Namely, in each evaluation process the total dataset is randomly divided into 近づいた すなわち、各評価プロセスにおいて、全データセットをランダムに分割する。 0.52
5 portions, with the aim of using 4 out of the 5 portions as the training set in the ML MLのトレーニングセットとして5つの部分のうち4つを使用することを目的とした5つの部分 0.74
model to predict the remaining validation portion and the C-index is computed on the 残りの検証部分を予測するモデルとc-indexが計算される 0.86
validation portion. For each split of the data into 5-folds, the mean of the set of five C- 検証部分。 データのそれぞれを5倍に分割すると、平均は5つのCである。 0.68
index values is computed, which serves as the objective value optimized by HyperOpt. インデックス値は計算され、HyperOptによって最適化された客観的値として機能する。 0.58
Once the hyperparameters have been identified, the model was subsequently evaluated ハイパーパラメータが特定されると、そのモデルが評価された 0.72
on the same total data set using 5-fold cross validation as explained above, but with the 上述したように 5 倍のクロスバリデーションを用いた 合計データセットについてですが 0.72
randomly selected folds being distinct from those used in the hyperparameter tuning ハイパーパラメータチューニングで使用されるものと異なるランダムに選択された折りたたみ 0.66
process in order to accurately assess the generalizability of the model. モデルの一般化可能性を正確に評価するためのプロセス。 0.79
The full implementation as well as data is provided in the subfolder “XGB_Code_Data” of the 全体 プリフォルダ “XGB_Code_Data” にデータも実装されている。 0.56
Supplementary Data32. Computing the Hazard Ratio and Confidence Intervals 補足データ32。 危険度比と信頼率の計算 0.72
For ML-derived HR for explanatory variable by two predefined disjoint subgroups 2つの不整合部分群による説明変数のML由来HRについて 0.60
(namely, greater than or equal to the median versus below for non-binary variables or 1 (すなわち、非二項変数または 1 の中央値以下よりも大きい、または等しい 0.75
英語(論文から抽出)日本語訳スコア
(6) versus 0 for binary variables), we took the ratio of the means of the exponentiated (6) バイナリ変数が 0 であるのに対して、私たちは指数の手段の比率を取りました 0.75
SHAP values for the two disjoint subgroups (𝑆&,𝑆)) as follows: 𝐻𝑅@JK = 𝑚𝑒𝑎𝑛’ ∈ PQ(𝑒𝑥𝑝(𝜙@(𝑓,𝑥’))/ 𝑚𝑒𝑎𝑛’ ∈ PS(𝑒𝑥𝑝(𝜙@(𝑓,𝑥’)), where 𝐻𝑅@JKis the ML-derived HR for explanatory variable 𝑗 and 𝑆& is the first subgroup of interest and 𝑆) is the second (reference) subgroup. HR@JK = mean' ∈ PQ(exp(φ@(f,x’))/ mean’ ∈ PS(exp(φ@(f,x’)) HR@JKis the ML-derived HR for Explanatory variable j and S& is the first subgroup of interest and S) is the second (reference) subgroup. HR@JK = mean' ∈ PQ(exp(φ@(f,x’))/ mean’ ∈ PS(exp(φ@(f,x’)) HR@JKis the ML-derived HR for Explanatory variable j and S& is the first subgroup of interest and S) is the second (reference) subgroup. 0.69
For an illustration of the nonbinary and binary explanatory variables where subgroups 𝑆& and 𝑆) are defined by on each 𝐻𝑅@JK calculated, we performed 1000 bootstraps of this calculation. 計算されたHR@JKに基づいて、サブグループS&Sが定義される非二項および二項説明変数の例を示すために、この計算の1000ブートストラップを実行した。 0.61
In each run, the cut-off given by the variable value (Figure 1). それぞれのランで。 変数値によって与えられるカットオフ(図1) 0.65
To estimate a 95% confidence interval 95%の信頼区間を推定する 0.84
methodology, we show an example with the colon cancer data of SHAP values for both 両者のSHAP値の結腸癌データを用いた例を示します。 0.63
we randomly sampled with replacement from the patients to split our dataset into 患者からランダムにサンプルを採取して データセットを分割しました 0.78
training and test sets, seeding the randomizer with a new value on each run. 訓練およびテスト セット、各ランの新しい価値の無作為化装置を種まきます。 0.79
We then trained a new XGBoost model with the pre-tuned hyperparameters and generated それでは 事前調整されたハイパーパラメータで新しいXGBoostモデルをトレーニングし、生成する 0.64
SHAP values for the full dataset. 完全なデータセットのSHAP値。 0.66
From these SHAP values, we then calculated a HR for これらのSHAP値からHRを計算しました。 0.70
each of the explanatory variables following eqn. eqn に続く説明変数のそれぞれ。 0.66
(6). Finally, we sorted each list and (6). 最後に、各リストをソートし、 0.78
chose the 2.5th and 97.5th percentile values of HR values, respectively. HR値の2.5位と97.5位をそれぞれ選択した。 0.67
For each of the processed datasets (as described in the section “Data 処理されたデータセットごとに(“data”のセクションで説明されているように) 0.65
Preparation and Modeling”), with the exception of the pan-cancer data without 作成とモデリング」)、パン癌のデータを含まないものを除きます。 0.63
imputations, we ran a CoxPH regression as well as 5-Fold cross-validation (CV)19 in the 実験では, coxph回帰と5-fold cross-validation (cv)19を行った。 0.79
same manner as for the XGBoost model, and computed the C-index.23 Namely, in each XGBoostモデルと同じ方法でC-index.23を計算しました。 0.71
英語(論文から抽出)日本語訳スコア
and compute the following: case the total dataset is divided into 5 portions, whereby each of the 4 portions is used 以下を計算します。 データセットが5つの部分に分割され、4つの部分のそれぞれが使用される場合 0.68
to fit the CoxPH model and its prediction evaluated on the remaining validation portion. 残りの検証部分で評価されたCoxPHモデルとその予測に適合する。 0.82
For each explanatory variable 𝑗 in the CoxPH model, we take the estimated coefficient, 𝛽@, as outputted by the model. CoxPHモデルにおける各説明変数jについて、モデルによって出力される推定係数 β@ を取ります。 0.78
To derive the HRs, we take the disjoint subgroups 𝑆& and 𝑆) as defined above for binary and nonbinary explanatory variables 𝐻𝑅@UVWXY = 𝑒𝑥𝑝( 𝛽@×[𝑚𝑒𝑎𝑛’ ∈ PQ(𝑥’) − 𝑚𝑒𝑎𝑛’ ∈ PS(𝑥’)]) where the 95% CI on 𝐻𝑅@UVWXY was generated using the above formula from the standard CoxPH model outputted lower and upper bound 𝛽@. HR を導出するために、二項および非二項説明変数 HR@UVWXY = exp( β@×[mean’ ∈ PQ(x’) − mean’ ∈ PS(x’)]) に対して定義されたような非連結部分群 S&S を取り、HR@UVWXY 上の95% CI は、下界と上界に出力された標準 CoxPH モデルから上記の式を用いて生成される。 0.85
Note that while for binary variables (where 𝑥’ is equal to either 0 or 1) the formula (7) is equivalent to the x’ が 0 または 1) に等しいバイナリ変数の場合、式 (7) は 0 に等しいことに注意してください。 0.74
(7) standard definition of CoxPH-based HR, for non-binary variables the expression is our (7) 非バイナリ変数に対する CoxPH ベースの HR の標準定義。 0.78
proposed approach to generalize the concept and derive a HR for the two subgroups. 概念を一般化し、2つの部分群に対する HR を導出するアプローチを提案する。 0.65
RESULTS Proposed HR computation is consistent with CoxPH using simulated data 結果 シミュレーションデータを用いた提案hr計算はcoxphと整合する 0.60
On the simulated dataset with preset linear coefficients and only binary variables, プレセット線形係数とバイナリ変数のみを持つシミュレーションデータセットについて 0.85
we show that XGBoost derived HR computations match all CoxPH results in both XGBoost による HR 計算が両方の CoxPH 結果と一致することを示します。 0.76
direction and significance, with nearly identical median HR approximations and 95% ほぼ同一の中央値HR近似と95%の方向と重要性 0.79
confidence interval bounds (Supplementary Figure 1). 信頼区間境界(副次図1)。 0.56
C-index comparisons between C-インデックス比較 0.78
英語(論文から抽出)日本語訳スコア
these two models indicate higher performance for the linear CoxPH model (Table 1 and これら2つのモデルは、線形CoxPHモデル(Table 1とTable 1)のより高い性能を示す。 0.62
Supplementary Figure 2). Comparison of Model Performance using C-index on Publicly Available Data 補足図2)。 C-index を用いた公開データにおけるモデル性能の比較 0.65
For the breast cancer and colon cancer dataset, we found that XGBoost 乳癌と大腸癌のデータセットについて XGBoost が発見された 0.81
performed comparably to the CoxPH model when evaluating the distribution of C- c分布評価におけるcoxphモデルとの比較検討- 0.73
indices from the results of a 5-fold CV20 on unseen data. 非知覚データに対する5倍cv20の結果からの指標。 0.74
For the larger pan-cancer dataset, XGBoost demonstrated a trend for higher mean performance, although that 大型の膵癌に。 データセット、XGBoostは、より高い平均パフォーマンスの傾向を示しました。 0.74
difference was not statistically significant (Table 1 and Figure 2). 差は統計的に有意ではなかった(表1と図2)。 0.72
Explaining ML Model using SHAP Analysis SHAP解析を用いたMLモデルの説明 0.74
Ranked SHAP value results for the breast cancer data show that the number of 乳がんデータに対するSHAP値の順位は、その数を示しています。 0.61
progesterone receptors (“prog_recp”), the number of nodes involved (“nodes”), and the プロゲステロン受容体(「prog_recp」)、関連するノード数(「ノード」)、およびそれらの 0.85
number of estrogen receptors (“estrg_recp”) were the top 3 features impacting XGBoost XGBoostに影響を及ぼすエストロゲン受容体(「estrg_recp」)の数が上位3位であった 0.68
predictions (Figure 3a). However, tumor grade (“grade”) and menopause status 予測(図3a)。 しかし,腫瘍のグレード(グレード)と更年期状態 0.74
(“menopause”) had very little impact on the model outputs. (「更年期」)モデルのアウトプットにはほとんど影響がなかった。 0.82
SHAP value rankings by SHAP 値のランキング。 0.76
variable for cancer results show that the number of nodes involved (“nodes”), treatment がん結果の変数は、関与するノード数(「ノード」)、治療数を示す 0.73
category (“rx”), and patient age were the 3 most important explanatory features while カテゴリー(「rx」)と患者年齢は3つの重要な説明的特徴であった。 0.81
time from surgery to registration (“surg”) and colon perforation value (“perfor”) had the 手術から登録までの時間(「サージ」)と大腸穿孔値(「パーフォ」) 0.63
lowest SHAP-impact (Figure 3b). 最低シャップインパクト(図3b)。 0.65
Similar SHAP rankings for the pan-cancer data パン癌データに対する類似SHAPランキング 0.73
without imputations suggest that tumor stage (“Tumor.stage”), age (“Years.to.birth”), インプテーションがなければ、腫瘍の段階(腫瘍.ステージ)、年齢(年)が示唆される。 0.72
and initial tumor diagnosis date (“Date.of.initial.path ological.diagnosis”) were the 3 most 初診日は「Date.of.initial.path ological.diagnosis」が最も多かった。 0.60
important explanatory variables with other high ranking features SHAP value showing SHAP値を示す他の高階特徴を持つ重要な説明変数 0.82
英語(論文から抽出)日本語訳スコア
clear directionality trends for either positive or negative impact on the model output, モデル出力に対する正または負のインパクトの明確な方向性トレンド。 0.84
e.g., positive BRCA tumor type indications (“TCGA.tumor.type.BRCA ”) show 例:陽性BRCA腫瘍型表示(TCGA.tumor.type.BRC A) 0.80
overwhelmingly negative SHAP values (Figure 3c). 圧倒的に負のシェープ値(図3c)。 0.63
Comparison of HRs HR estimations obtained for XGBoost for both the breast cancer and colon HRの比較 乳癌と大腸癌におけるXGBoostのHR評価 0.67
cancer datasets were highly consistent with CoxPH results (Figure 4 panels a/b and 癌データセットはcoxph値と高い一致を示した(第4図)。 0.65
Supplementary Figure 3). In the breast cancer comparison, the derived HRs agreed in 補足図3)。 乳癌との比較では, 由来のHRsが一致した。 0.65
significance at p=0.05 for 7 out of 8 explanatory variables and had overlapping CI for a 説明変数8つ中7つについてp=0.05の意義 0.64
single variable that did not agree. 一致しなかった単一の変数。 0.70
Of the variables where one or both of the models 1つまたは両方がモデルである変数の 0.79
predicted statistical significance, XGBoost HR predictions agreed with that of CoxPH on 統計的意義の予測, XGBoost HR 予測は CoxPH on の予測と一致した 0.76
3 out of the 4 explanatory variables and the direction of the median HR effect on 4つの説明変数のうち3つとHR効果の中央方向 0.64
outcome was the same for all 4 significant variables. 結果は4つの重要な変数すべてで同じでした 0.77
Similarly, in the Colon Cancer 同様に大腸癌においても 0.77
comparison, the derived HRs agreed in significance for 8 out of the 10 explanatory 比較して 導出されたhrsは 説明書10点中8点において 0.53
variables, and also had overlapping confidence intervals for both variables that 両変数の信頼区間が重なり合うこともありました 0.63
disagreed. Of the variables where either one or both of the models predicted 同意しなかった モデルのどちらか一方または両方が予測される変数の 0.69
significance, XGBoost HR predictions agreed on 4 out of 6 variables for significance 重要度, XGBoost HR予測は6変数中4変数で一致した。 0.74
and the direction of median HR effect on outcome was identical for all 6 significant 結果に対する中央値のhr効果の方向は 6人全員で同じでした 0.77
variables. For the pan-cancer data, HR estimates from XGBoost were notably similar to that 変数。 パン・カンサーデータでは、XGBoostのHR推定値と顕著に類似していた。 0.65
of CoxPH model in testing all of the following 3 dataset variants: (1) excluding genetic 次の3つのデータセットのすべてをテストする際のCoxPHモデルの1:遺伝子を除く 0.76
mutation explanatory variables; (2) including those mutation data and imputing median 変異説明変数(2)これらの変異データとインプット中間子を含む 0.76
英語(論文から抽出)日本語訳スコア
values for missing data; (3) including the mutation data but not imputing any values 欠落したデータの値; (3) 変異データを含むが、いかなる値も入力しない 0.79
(Table 1). We found that with our tuned hyperparameters, XGBoost results on the (表1)。 チューニングされたハイパーパラメータで、XGBoostの結果が得られました。 0.62
complete data without imputations outperformed both XGBoost and CoxPH results on インプテーションのない完全なデータはxgboostとcoxphの結果より優れている 0.62
all the same data sets but with imputation. 同じデータセットは、すべてインプテーションによるものです。 0.67
Our CoxPH result using only a select number 選択数のみを用いた我々のCoxPH結果 0.79
of explanatory variables had a slightly higher but not statistically significant mean C- 説明変数がわずかに高いが統計的に有意な平均C− 0.73
index obtained from 5-fold CV (see Supplementary Figure 4). 5倍CVから得られたインデックス(補足図4参照)。 0.72
The CoxPH model also CoxPHモデルも登場。 0.85
seemed to quickly degrade in predictive power with the addition of all genetic mutation 遺伝子変異を全て加えることで 予測力が急速に低下し 0.73
information. To capture the effects of all 143 explanatory variables, we therefore chose to 情報だ 143個の説明変数の効果を捉えるため、我々は選択した。 0.69
compare the XGBoost model without imputations to the CoxPH model with imputatons 命令なしでXGBoostモデルとCoxPHモデルとをインプットトンで比較する 0.76
(Figure 4c). There was high similarity between outputs for both models, with agreement (第4c図) 両モデルの出力には高い類似性があり、一致している。 0.75
on HR direction (median greater than or equal to or less than 1 in 104/143 variables HR 方向について (104/143 変数で 1 以上またはそれ以下) 0.73
(see Supplementary Figures 5-7). (補足図5-7参照)。 0.72
Within the set of explanatory variables where either 説明変数のセット内では、どちらでも 0.64
XGBoost without imputations or CoxPH with imputations found the variable to be XGBoost without imputations または CoxPH with imputations は変数を発見 0.82
significant, the models agreed on median direction in 25/29 variables and both median 重要、モデルは25/29変数の中央方向と中央方向の両方で一致した 0.60
direction as well as significance at p=0.05 in 11/29. また、p=0.05では11/29。 0.66
For 2 variables, Tumor Type LUAD 2 変数の場合、腫瘍型 LUAD です。 0.67
and Tumor Type LUSC (representing lung adenocarcinoma and lung squamous cell 肺腺癌および肺扁平上皮細胞を発現する腫瘍型LUSC 0.75
carcinoma, respectively), XGBoost predicted a direction of variable effect that was in XGBoost は, 内在する変動効果の方向を予測した。 0.53
opposition to the CoxPH result. CoxPHの結果に対する反対。 0.75
We therefore examined their individual Kaplan-Meier そこで我々はそれぞれのKaplan-Meierについて検討した。 0.33
survival curves, which showed that there is a rapid drop in LUAD and LUSC positive 生存曲線は luad と lusc 陽性が急速に低下していることを示しました 0.77
patients’ survival and the numbers of LUAD and LUSC positive patients are small 患者生存率およびLUADおよびLUSC陽性患者数は少ない。 0.65
英語(論文から抽出)日本語訳スコア
compared to the LUAD and LUSC negative groups, which is consistent with XGBoost XGBoostと一致するLUADおよびLUSCの否定的なグループと比較される。 0.78
HR estimations (Figure 5 and Supplementary Figure 8). 人事評価(図5および補足図8)。 0.59
DISCUSSION While there has been much interest in applying ML to healthcare and drug ディスカシジョン MLを医療や薬物に応用することへの関心は高かったが 0.68
development applications, several obstacles remain on the path towards broader 開発アプリケーションでは 幅広い道のりにいくつかの障害が残っています 0.62
adoption.24 While ML methodologies offer some advantages beyond traditional adoption.24 ML方法論は従来の方法よりもいくつかの利点を提供する 0.50
biostatistical methods including flexibility and scalability25, a framework for establishing 柔軟性とスケーラビリティを含む,生物統計学的な手法 0.76
the statistical significance of complex ML models remains to be developed.6 In this 複雑なMLモデルの統計的重要性は、まだ発展途上である。 0.68
work, we show that the same SHAP analysis framework12 that has been developed to 作業では、同じSHAP分析フレームワーク12が開発されました。 0.64
explain ML models6 can also be used to establish the statistical significance of ml model6の説明は、統計学的意義の確立にも利用できる。 0.69
explanatory variables. In particular, in the context of survival analysis we have 説明変数。 特に 生存分析の文脈では 0.58
developed a way to compute HRs and their CI with respect to explanatory variables, 説明変数に関する HR とその CI を計算する方法を開発しました。 0.80
which is part of the output familiar to users of CoxPH analysis. これは、CoxPH分析のユーザーに慣れ親しんだ出力の一部です。 0.71
Using our proposed methodology, one can employ ML on survival data and attribute not only the magnitude 提案を生かして 方法 生存率データにmlを適用でき 大きさだけでなく属性も指定できる 0.64
but also the significance to each of the explanatory variables. 説明変数のそれぞれにとっての意義もあります 0.61
As a demonstration of the proposed methodology, we show in the case of simulated survival data our ML-derived デモとして。 提案手法では、ML由来のシミュレーション生存データの場合に示します。 0.66
HR computation matches that of linear CoxPH results. HR計算は線形CoxPHの結果と一致する。 0.83
We further applied the methodology on three sets of clinical survival data and showed good agreement in two さらに適用しました 3組の臨床生存データの方法論と2つで良好な一致を示した 0.75
of the data sets that contain a small number of explanatory variables, as well as some 少数の説明変数を含むデータセット、およびいくつかのデータセット。 0.65
differences in the large pan-cancer dataset. 大きなpan-cancerデータセットの違い。 0.74
Amongst the variables that showed discrepancies between the two model results, we examined them further with the results 示した変数の中で 2つのモデルの結果の相違点についてさらに検討した。 0.72
英語(論文から抽出)日本語訳スコア
supporting the ML findings. MLの発見をサポートする。 0.62
While we demonstrated the use of SHAP analysis for the SHAP解析の応用を実演しながら 0.50
derivation of HRs only in the context of XGBoost11 models for survival, note that it can 生存のためのXGBoost11モデルの文脈でのみHRの導出、それが可能であることに注意してください。
訳抜け防止モード: 生存のためのXGBoost11モデルの文脈でのみHRの導出。 出来ることに注意してください
0.70
be similarly applied to other types of tree-based ML (such as Random Survival Forest26) 他の種類の木に基づくML(ランダムサバイバルフォレスト26など)にも同じように適用される 0.66
models as well as neural networks.27 Demonstration of the proposed methodology to ニューラルネットワークとモデル-27 提案手法の実証 0.52
these other ML model types remain an area for further work. これらの他のMLモデルタイプは、さらなる作業のための領域のままです。 0.59
Additionally, while we have demonstrated the methodology using the median value as a cut-off to derive the two 加えて私達は 中央値をカットオフにして2つを導出する方法の実証 0.64
disjoint subgroups (𝑆&,𝑆)), the approach can similarly be applied with any selection of disjoint subgroups (S&,S)) のアプローチは、任意の選択で同様に適用できます。 0.76
the two disjoint subgroups. 2つの非結合部分群です 0.52
Some limitations of the proposed SHAP-based HR SHAPに基づくHRのいくつかの制限 0.74
estimation approach include the potentially large computational efforts required for more 見積もりのアプローチには、より多くの計算に必要な潜在的大きな労力が含まれる 0.55
complex models, and possible situations where the ML model and the subsequent 複雑なモデル、そしてMLモデルとその後の状況 0.66
SHAP analysis do not adequately describe the data. SHAP分析はデータを適切に記述しません。 0.80
For datasets where the explanatory variables are very high dimensional and little nonlinear effects appear, データセットの場合 説明変数は非常に高次元で 非線形効果がほとんどありません 0.69
algorithms such as elastic net for CoxPH may provide accurate and efficient coxph用のelastic netのようなアルゴリズムは正確で効率的な 0.77
alternatives.28 In conclusion, by using the advantages offered by modern ML techniques and 代替案28 結論として、現代のML技術がもたらす利点を生かして、 0.52
delivering the results in a manner familiar to users of biostatistical analyses of survival 生存率の生物統計学的分析の利用者に親しみやすい方法で結果を届ける 0.76
data, we believe the proposed methodology represents a significant advancement データ 提案手法は かなり進歩したものですが 0.63
which will help to broaden the adoption of ML and increase its impact within the field of MLの採用を拡大し、その分野への影響を高めるのに役立つだろう。 0.57
clinical oncology. The potential applications of the methodology include the identification of risk 臨床腫瘍学 この方法論の潜在的な応用には、リスクの特定が含まれる 0.61
stratification factors from cancer patients to enable personalized therapy29,30 and パーソナライズされた治療29,30とがん患者の階層化要因 0.65
improve the prediction of clinical trial outcomes from tumor growth inhibition metrics.31 腫瘍増殖抑制指標による臨床試験成績予測の改善.31 0.84
英語(論文から抽出)日本語訳スコア
ACKNOWLEDGEMENTS ACKNOWLEDGements 0.73
We would like to acknowledge Dale Miles, Rene Bruno, Kenta Yoshida, Jin Y. Dale Miles, Rene Bruno, Kenta Yoshida, Jin Yに感謝します。 0.66
Jin, Chunze Li and Amita Joshi for their feedback and support to help make this work Jin氏、Chunze Li氏、Amita Joshi氏からフィードバックと支援を受けています。 0.65
possible, as well as Mausumi Debnath, Harbeen Grewal and Srilatha Swami of Anshin 可能性としては モースミ・デブナート ハーベン・グローダル スリラタ・スワミ 安神 0.39
Biosolutions for providing editorial assistance. 編集支援のためのバイオソリューション。 0.65
Funding information This study was performed while the authors were employed by Genentech, Inc. 資金提供情報 この研究は、著者がGenentech, Inc.に雇われている間に行われた。 0.70
REFERENCES 1. Collett D: Modelling survival data in medical research. 参考 1. Collett D: 医療研究における生存データのモデル化。 0.71
CRC press., 2015 2015年CRCプレス。 0.87
2. Cox DR: Regression models and life-tables. 2. Cox DR: 回帰モデルとライフテーブル。 0.82
J. Royal Stat. J.Royal Stat。 0.91
Soc: Series B (Methodological) Soc:シリーズB(方法論) 0.85
34:187-202, 1972 34:187-202, 1972 0.59
3. Esteva A, Robicquet A, Ramsundar B, et al: A guide to deep learning in healthcare. 3. Esteva A, Robicquet A, Ramsundar B, et al: 医療におけるディープラーニングのガイド。 0.79
Nat Med 25:24-29, 2019 ナット Med 25:24-29, 2019 0.53
4. Wang P, Li Y, Reddy CK: Machine learning for survival analysis: A survey. 4. Wang P, Li Y, Reddy CK: 生存分析のための機械学習: 調査。 0.83
ACM Computing Surveys 51:1-36, 2019 ACM コンピューティング調査 51:1-36, 2019 0.74
5. Chen D, Goyal G, Go RS, et al: Improved Interpretability of Machine Learning Model Using 5. Chen D, Goyal G, Go RS, et al: 機械学習モデルの解釈性の向上 0.84
Unsupervised Clustering: Predicting Time to First Treatment in Chronic Lymphocytic unsupervised clustering: 慢性リンパ性疾患における初回治療までの予測 0.74
Leukemia. JCO Clin Cancer Inform 3:1-11, 2019 白血病。 JCO Clin Cancer Inform 3:1-11, 2019 0.70
6. Li R, Shinde A, Liu A, et al: Machine Learning-Based Interpretation and Visualization of 6. Li R, Shinde A, Liu A, et al: 機械学習による解釈と可視化 0.88
Nonlinear Interactions in Prostate Cancer Survival. 前立腺癌生存時の非線形相互作用 0.75
JCO Clin Cancer Inform 4:637-646, JCO Clin Cancer Inform 4:637-646 0.80
2020 2020 0.85
英語(論文から抽出)日本語訳スコア
7. Nicolo C, Perier C, Prague M, et al: Machine Learning and Mechanistic Modeling for 7. Nicolo C, Perier C, Prague M, et al: 機械学習と機械モデリング 0.80
Prediction of Metastatic Relapse in Early-Stage Breast Cancer. 早期乳癌における転移性再発の予測 0.74
JCO Clin Cancer Inform JCOクリン癌インフォーム 0.66
4:259-274, 2020 4:259-274, 2020 0.59
8. Siah KW, Khozin S, Wong CH, et al: Machine-Learning and Stochastic Tumor Growth 8. Siah KW, Khozin S, Wong CH, al: Machine-Learning and Stochastic tumor Growth 0.85
Models for Predicting Outcomes in Patients With Advanced Non-Small-Cell Lung Cancer. 進行性非小細胞肺癌患者の予後予測モデル 0.63
JCO Clin Cancer Inform 3:1-11, 2019 JCO Clin Cancer Inform 3:1-11, 2019 0.78
9. Bertsimas D, Wiberg H: Machine Learning in Oncology: Methods, Applications, and 9. Bertsimas D, Wiberg H: オンコロジーにおける機械学習:方法、応用、そして 0.86
Challenges. JCO Clin Cancer Inform 4:885-894, 2020 挑戦。 JCO Clin Cancer Inform 4:885-894, 2020 0.74
10. Breiman L: Random forests. 10. Breiman L: ランダムな森。 0.81
Machine Learning 45:5-32, 2001 機械学習45:5-32 2001 0.70
11. Chen T, Guestrin C: XGBoost: A Scalable Tree Boosting System. 11. Chen T, Guestrin C: XGBoost: スケーラブルなツリーブースティングシステム。 0.79
Presented at the Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery 展覧会で 第22回ACM SIGKDD国際知識発見会議の開催状況 0.69
and Data Mining. そしてデータマイニング。 0.62
KDD ’16. Association for Computing Machinery., 2016 KDD ’16。 Association for Computing Machinery., 2016 0.82
12. Lundberg SM, Erion G, Chen H, et al: From local explanations to global understanding 12. Lundberg SM, Erion G, Chen H, et al:ローカル説明からグローバル理解へ 0.83
with explainable AI for trees. 説明可能なAIを使って木を作ります 0.50
Nature Machine Intelligence 2:2522-5839, 2020 Nature Machine Intelligence 2:2522-5839, 2020 0.75
13. Cox CS: Plan and operation of the NHANES I Epidemiologic Followup Study, 1992 (No. 13. Cox CS: NHANES I Epidemiologic Followup Study, 1992の計画と運用。 0.73
35), 1998 14. 35), 1998 14. 0.77
Sauerbrei W, Royston P, Bojar H, et al: Modelling the effects of standard prognostic Sauerbrei W, Royston P, Bojar H, et al:標準確率の影響のモデル化 0.81
factors in node-positive breast cancer. リンパ節陽性乳癌の因子。 0.74
German Breast Cancer Study Group (GBSG). ドイツ乳癌研究グループ(GBSG)の略称。 0.78
Br J Cancer 79:1752-60, 1999 Br J 癌79:1752-60,1999 0.68
15. Laurie JA, Moertel CG, Fleming TR, et al: Surgical adjuvant therapy of large-bowel 15. Laurie JA, Moertel CG, Fleming TR, et al: 大浴場の外科的補助療法 0.84
carcinoma: an evaluation of levamisole and the combination of levamisole and fluorouracil. 癌:levamisoleの評価およびlevamisoleおよびfluorouracilの組合せ。 0.56
The North Central Cancer Treatment Group and the Mayo Clinic. 北中央がん治療グループと メイヨークリニックです 0.61
J Clin Oncol 7:1447-56, J Clin Oncol 7:1447-56, 0.71
1989 16. 1989 16. 0.85
Kandoth C, McLellan MD, Vandin F, et al: Mutational landscape and significance across Kandoth C, McLellan MD, Vandin F, et al: Mutational landscape and importance across 0.84
12 major cancer types. 12種類のがんがある。 0.60
Nature 502:333-339, 2013 Nature 502:333-339, 2013 0.65
英語(論文から抽出)日本語訳スコア
17. Harden JJ, Kropko J: Simulating Duration Data for the Cox Model. 17. Harden JJ, Kropko J: Coxモデルのための時間データのシミュレーション。 0.86
PSRM. 7(04):921-928, PSRM。 7(04):921-928, 0.82
2019 18. 2019 18. 0.85
Therneau T: A package for survival analysis in R. R package version 3.2 - 7. https://cran.r- Therneau T: R.Rパッケージバージョン3.2 - 7. https://cran.r- 0.76
project.org/web/pack ages/survival/citati on.html., 2020 project.org/web/pack ages/survival/citati on.html., 2020 0.29
19. Pedregosa F, Varoquaux G, Gramfort A, et al: Scikit-learn: Machine Learning in Python. 19. Pedregosa F, Varoquaux G, Gramfort A, et al: Scikit-learn: Machine Learning in Python。 0.88
J. Machine Learn. Res. J。 機械を学ぶ。 Res! 0.74
12:2825-2830, 2011 12:2825-2830, 2011 0.59
20. Raschka S, Mirjalili V: Python machine learning (ed Second ), Packt Publishing Ltd., 2017 20. Raschka S, Mirjalili V: Python Machine Learning (ed Second ), Packt Publishing Ltd., 2017 0.83
21. Bergstra J, Komer B, Eliasmith C, et al: Hyperopt: a python library for model selection and 21. Bergstra J, Komer B, Eliasmith C, et al: Hyperopt: モデル選択とモデル選択のためのpythonライブラリ 0.87
hyperparameter optimization. ハイパーパラメータ最適化 0.80
Comp. Sci Discovery. Comp サイエンスディスカバリー。 0.45
8:014008, 2015 8:014008, 2015 0.78
22. Barnwal A, Cho H, Hocking TD: Survival regression with accelerated failure time model in 22. Barnwal A, Cho H, Hocking TD:resvival regression with accelerated failure time model in 0.82
XGBoost. https://arxiv.org/ab s/2006.04920, 2020 XGBoost。 https://arxiv.org/ab s/2006.04920, 2020 0.63
23. Harrell FE, Jr., Califf RM, Pryor DB, et al: Evaluating the yield of medical tests. 23. Harrell FE, Jr., Califf RM, Pryor DB, et al: 医療検査の収量を評価する。 0.81
JAMA 247:2543-6, 1982 ジャマ 247:2543-6, 1982 0.58
24. Rajkomar A, Dean J, Kohane I: Machine Learning in Medicine. 24. Rajkomar A, Dean J, Kohane I: 医学における機械学習。 0.86
N Engl J Med 380:1347- N Engl J Med 380:1347- 0.78
1358, 2019 1358, 2019 0.85
25. Ngiam KY, Khor IW: Big data and machine learning algorithms for health-care delivery. 25. Ngiam KY, Khor IW: 医療提供のためのビッグデータと機械学習アルゴリズム。 0.84
Lancet Oncol 20:e262-e273, 2019 Lancet Oncol 20:e262-e273, 2019 0.78
26. Polsteri S: Scikit-survival: A Library for Time-to-Event Analysis Built on Top of scikit-learn. 26. polsteri s: scikit-survival: scikit-learn上に構築されたイベント分析のためのライブラリ。 0.79
. J. Machine Learn. . J。 機械を学ぶ。 0.79
Res. 21:1-6, 2020 Res! 21:1-6, 2020 0.64
27. Kvamme H, Borgan O, Schael I: Time-to-event prediction with neural networks and Cox 27. Kvamme H, Borgan O, Schael I: ニューラルネットワークとCoxによる時系列予測 0.83
regression. Journal of machine learning research. 回帰だ journal of machine learning researchの略。 0.61
J. Machine Learn. Res. J。 機械を学ぶ。 Res! 0.74
20:1-30, 2019 20:1-30, 2019 0.59
28. Wu, Y, 2012. 28. 武、Y、2012。 0.68
Elastic net for Cox’s proportional hazards model with a solution path 解経路を有するCoxの比例ハザードモデルのための弾性ネット 0.70
algorithm. Statistica Sinica, 22, p.27. アルゴリズム。 Statistica Sinica, 22, p.27。 0.79
英語(論文から抽出)日本語訳スコア
29. Tseng YJ, Wang HY, Lin TW, et al: Development of a Machine Learning Model for 29. Tseng YJ, Wang HY, Lin TW, et al: 機械学習モデルの開発 0.79
Survival Risk Stratification of Patients With Advanced Oral Cancer. 進行口腔癌患者の生存リスク階層化 0.60
JAMA Netw Open JAMA Netwオープン! 0.80
3:e2011768, 2020 3:e2011768, 2020 0.99
30. Yang CH, Moi SH, Ou-Yang F, et al: Identifying Risk Stratification Associated with a 30. Yang CH, Moi SH, Ou-Yang F, et al: Identifying Risk Stratification Associated with a 0.89
Cancer for Overall Survival by Deep Learning-Based CoxPH. 深部学習型CoxPHによる全身生存癌の1例 0.71
IEEE Access 7, 2019 IEEE Access 7, 2019 0.85
31. Bruno R, Bottino D, de Alwis DP, et al: Progress and Opportunities to Advance Clinical 31. Bruno R, Bottino D, de Alwis DP, et al: Progress and Opportunities to Advance Clinical 0.85
Cancer Therapeutics Using Tumor Dynamic Models. 腫瘍ダイナミックモデルを用いたがん治療 0.77
Clin Cancer Res 26:1787-1795, 2020 Clin Cancer Res 26:1787-1795, 2020 0.75
32. Computing the Hazard Ratios Associated with Explanatory Variables Using Machine 32. 機械による説明変数に関連する危険率の計算 0.81
Learning Models of Survival Data, Supplementary Data 生存データ・補足データの学習モデル 0.78
(https://github.com/ jameslu01/Compute_Ha zRatio_ML) (https://github.com/ jameslu01/Compute_Ha zRatio_ML) 0.37
英語(論文から抽出)日本語訳スコア
TABLES & FIGURES TABLES & FIGURES 0.85
Table 1: Summary of the simulated and publicly available datasets used in this study, 表1: この研究で使用されるシミュレーションおよび公開データセットの概要。 0.80
including variations on the data used and C-index comparison between traditional CoxPH and XGBoost models. 従来の CoxPH と XGBoost モデル間のデータおよび C-index の比較のバリエーションを含みます。 0.80
Dataset Patients Events Number of Explanatory Variables データセット患者イベント 説明変数の数 0.84
CoxPH C-Index CoxPH C-Index 0.71
(Mean± Std.Dev) (Mean±) Std.Dev) 0.70
(Mean± Std. (Mean± Std)。 0.71
Dev) XGBoost C-Index 開発) XGBoost C-Index 0.64
850 686 888 850 686 888 0.85
672 171 430 672 171 430 0.85
3 8 10 2912 3 8 10 2912 0.85
984 16 2912 984 16 2912 0.85
984 143 0.790 +/- 0.019 984 143 0.790 +/- 0.019 0.76
0.737 ± 0.027 0.647 ± 0.031 0.781 ± 0.013 0.757 ± 0.022 0.737 ± 0.027 0.647 ± 0.031 0.781 ± 0.013 0.757 ± 0.022 0.53
2912 984 143 2912 984 143 0.85
- 0.729 +/- 0.019 - 0.729 +/- 0.019 0.72
0.747 ± 0.052 0.663 ± 0.028 0.77 ± 0.018 0.771 ± 0.019 0.774 ± 0.016 0.747 ± 0.052 0.663 ± 0.028 0.77 ± 0.018 0.771 ± 0.019 0.774 ± 0.016 0.52
Simulated Data Breast Cancer Colon Cancer PanCancer (limited covs) PanCancer シミュレーション Data Breast Cancer Colon Cancer PanCancer (limited covs) PanCancer 0.78
(all, imputing) (全部) imputing (複数形 imputings) 0.46
PanCancer (all, no imputing) PanCancer (複数形 PanCancers) 0.60
英語(論文から抽出)日本語訳スコア
Figure 1: Illustration of SHAP Dependence and Force Plot Visualization using 図1:SHAP依存性のイラストレーションとフォースプロット可視化 0.77
explanatory variables ‘Age’ (top) and ‘Treatment’ (bottom) from the Colon Cancer Data. 大腸がんデータから「Age」(上)と「Treatment」(下)の説明変数。 0.67
Disjoint subgroups are divided in the SHAP Dependence Plots by the median value of 異なる部分群は SHAP Dependence Plots の中央値で分割されます。 0.72
the variable. Individual force plots show direction of SHAP value effect compared to 変数。 個々の力プロットはSHAP値効果の方向を示す 0.64
baseline. ベースライン。 0.62
英語(論文から抽出)日本語訳スコア
Figure 2: C-index comparisons between traditional CoxPH and XGBoost from 5-fold 図2:従来のCoxPHとXGBoostのC-index比較。 0.81
cross validation on each of the datasets. 各データセットのクロス検証。 0.55
For the pan-cancer data, we evaluated the パン癌のデータは以下の通りです。 0.55
model performance with no patient left out by comparing CoxPH (with imputation of coxph (inutation of imputation) の比較による無患者モデルの性能評価 0.82
explanatory variables with missing values) against the XGBoost model without any 不足値を持つ説明変数)XGBoostモデルに対して何もない 0.81
imputation. インプテーション。 0.37
英語(論文から抽出)日本語訳スコア
Figure 3: Feature importance ranked by the mean absolute magnitude of SHAP values 図3:shap値の平均絶対等級による特徴の重要性 0.70
for each of the breast cancer (a), colon cancer (b), and pan-cancer (c) data without 乳がん(a)、結腸癌(b)、膵癌(c)の各データに対して無断で処理します。 0.77
imputations. Explanatory variables are notated as originally found in the datasets. インプテーションだ 説明変数は、もともとデータセットにあるように通知される。 0.46
Clusters of data around SHAP value of zero indicates small impact on model output. 0のSHAP値周辺のデータのクラスタは、モデル出力に小さな影響を示します。 0.73
英語(論文から抽出)日本語訳スコア
Figure 4: Comparison plots of CoxPH with imputations and XGBoost without 図4:インプテーションとXGBoostのないCoxPHの比較プロット 0.73
imputations for all significant explanatory variables in each dataset. 各データセット内のすべての重要な説明変数に対するインプテーション。 0.68
We denoted explanatory variables with truncated names so as to fit in the plots. 私たちは プロットに収まるように、切り捨てられた名前を持つ説明変数。 0.71
Blue and orange stars represent significance on that variable for CoxPH and XGBoost respectively. 青とオレンジ 星はそれぞれCoxPHとXGBoostの変数の重要性を表している。 0.75
The explanatory variables that have both blue and orange stars where both models agreed on their significance. あらすじ 青とオレンジの星を持つ説明変数で どちらもその重要性に 一致している 0.55
英語(論文から抽出)日本語訳スコア
Figure 5: Kaplan-Meier estimates of survival for cancer types: lung adenocarcinoma 図5:Kaplan-Meierによる癌型生存率の推定:肺腺癌 0.84
(LUAD) and lung squamous cell carcinoma (LUSC) with their respective confidence intervals and the median survival are shown. 肺扁平上皮癌 (LUAD) と肺扁平上皮癌 (LUSC) はそれぞれ各々の信頼区間と中央生存率を示す。 0.72
                                                       ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。