論文の概要: Comparative Evaluation of Explainable Machine Learning Versus Linear Regression for Predicting County-Level Lung Cancer Mortality Rate in the United States
- arxiv url: http://arxiv.org/abs/2512.17934v1
- Date: Wed, 10 Dec 2025 23:33:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 00:37:57.066874
- Title: Comparative Evaluation of Explainable Machine Learning Versus Linear Regression for Predicting County-Level Lung Cancer Mortality Rate in the United States
- Title(参考訳): 米国における郡レベル肺癌死亡率予測のための説明可能な機械学習動詞線形回帰の比較検討
- Authors: Soheil Hashtarkhani, Brianna M. White, Benyamin Hoseini, David L. Schwartz, Arash Shaban-Nejad,
- Abstract要約: 肺がん (Lung cancer, LLC) は、アメリカ合衆国におけるがん関連死亡の原因である。
本研究は、アメリカ合衆国における郡レベルのLC死亡率を予測するために、3つのモデルを適用した。
- 参考スコア(独自算出の注目度): 0.1957338076370071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lung cancer (LC) is a leading cause of cancer-related mortality in the United States. Accurate prediction of LC mortality rates is crucial for guiding targeted interventions and addressing health disparities. Although traditional regression-based models have been commonly used, explainable machine learning models may offer enhanced predictive accuracy and deeper insights into the factors influencing LC mortality. This study applied three models: random forest (RF), gradient boosting regression (GBR), and linear regression (LR) to predict county-level LC mortality rates across the United States. Model performance was evaluated using R-squared and root mean squared error (RMSE). Shapley Additive Explanations (SHAP) values were used to determine variable importance and their directional impact. Geographic disparities in LC mortality were analyzed through Getis-Ord (Gi*) hotspot analysis. The RF model outperformed both GBR and LR, achieving an R2 value of 41.9% and an RMSE of 12.8. SHAP analysis identified smoking rate as the most important predictor, followed by median home value and the percentage of the Hispanic ethnic population. Spatial analysis revealed significant clusters of elevated LC mortality in the mid-eastern counties of the United States. The RF model demonstrated superior predictive performance for LC mortality rates, emphasizing the critical roles of smoking prevalence, housing values, and the percentage of Hispanic ethnic population. These findings offer valuable actionable insights for designing targeted interventions, promoting screening, and addressing health disparities in regions most affected by LC in the United States.
- Abstract(参考訳): 肺がん (Lung cancer, LLC) は、アメリカ合衆国におけるがん関連死亡の原因である。
LC死亡率の正確な予測は、対象の介入を誘導し、健康格差に対処するために重要である。
従来の回帰モデルが一般的に使用されているが、説明可能な機械学習モデルは、予測精度を向上し、LC死亡に影響を与える要因についてより深い洞察を与えることができる。
本研究は, ランダムフォレスト (RF), 勾配上昇回帰 (GBR), 線形回帰 (LR) の3つのモデルを適用した。
R-squared and root mean squared error (RMSE) を用いてモデル性能を評価した。
Shapley Additive Explanations (SHAP) 値は、変数の重要性と方向の影響を決定するために用いられた。
LC死亡率の地理的差はGetis-Ord(Gi*)ホットスポット分析により解析した。
RFモデルはGBRとLRより優れ、R2は41.9%、RMSEは12.8であった。
SHAP分析は喫煙率を最も重要な予測因子とし、次いで中央値とヒスパニック系人口の比率を示した。
空間分析では、アメリカ合衆国中東部の郡でLC死亡率が著しく上昇していることが判明した。
RFモデルはLC死亡率に対して優れた予測性能を示し,喫煙頻度,住宅価格,ヒスパニック系人口の比率といった重要な役割を強調した。
これらの発見は、標的とした介入を設計し、スクリーニングを促進し、米国のLCに最も影響された地域での健康格差に対処するために有用な洞察を提供する。
関連論文リスト
- Case Prompting to Mitigate Large Language Model Bias for ICU Mortality Prediction [17.91443453604627]
大規模言語モデル(LLM)は、構造化された医療データから結果を予測することを約束している。
LLMは性、年齢、人種に関する人口統計バイアスを示し、臨床実践における信頼に値する使用を制限することができる。
本研究では,公正さとパフォーマンスを同時に向上するトレーニングフリー,臨床適応型プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-17T12:29:53Z) - Methodology for Comparing Machine Learning Algorithms for Survival Analysis [55.65997641180011]
生存分析のための6つの機械学習モデルを評価した。
XGB-AFTは最高性能(C-Index = 0.7618; IPCW = 0.7532、GBSAとRCF)を達成した。
論文 参考訳(メタデータ) (2025-10-28T14:42:28Z) - Interpretable Machine Learning for Life Expectancy Prediction: A Comparative Study of Linear Regression, Decision Tree, and Random Forest [0.0]
本研究では、線形回帰(LR)、回帰決定木(RDT)、ランダムフォレスト(RF)の3つの機械学習モデルを評価する。
RFは最大予測精度(R2 = 0.9423$)を達成し、LRとRTTを大きく上回る。
これらの洞察は、公衆衛生上の課題に対処する上で、アンサンブル手法と透明性の相乗効果を強調している。
論文 参考訳(メタデータ) (2025-10-01T06:02:31Z) - Early Mortality Prediction in ICU Patients with Hypertensive Kidney Disease Using Interpretable Machine Learning [3.4335475695580127]
集中治療室(ICUs)の高血圧性腎疾患(HKD)患者は短期的死亡率が高い。
我々は,HKDのICU患者に対して,30日間の院内死亡を予測できる機械学習フレームワークを開発した。
論文 参考訳(メタデータ) (2025-07-25T00:48:23Z) - Analyzing Geospatial and Socioeconomic Disparities in Breast Cancer Screening Among Populations in the United States: Machine Learning Approach [0.3958317527488535]
本研究はアメリカ合衆国全国の乳癌検診率を評価することを目的としている。
2018年と2020年の国勢調査におけるマンモグラフィー検診データを収集した。
72337回の国勢調査において,13変数からなる健康決定因子の大規模データセットを構築した。
論文 参考訳(メタデータ) (2025-01-30T21:07:34Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Penalized Deep Partially Linear Cox Models with Application to CT Scans
of Lung Cancer Patients [42.09584755334577]
肺がんは世界中のがん死亡の原因であり、効果的な治療法を設計するための死亡リスクを理解することの重要性を強調している。
NLST(National Lung Screening Trial)は、肺がん患者の死亡リスクを定量化するために、CTテクスチャ解析を用いている。
本稿では,SCADペナルティを組み込んで重要なテクスチャ特徴を抽出し,深層ニューラルネットワークを用いてモデルの非パラメトリック成分を推定する,Pentalized Deep partially Linear Cox Model (Penalized DPLC)を提案する。
論文 参考訳(メタデータ) (2023-03-09T15:38:16Z) - Clinical Deterioration Prediction in Brazilian Hospitals Based on
Artificial Neural Networks and Tree Decision Models [56.93322937189087]
超強化ニューラルネットワーク(XBNet)は臨床劣化(CD)を予測するために用いられる
XGBoostモデルはブラジルの病院のデータからCDを予測する最良の結果を得た。
論文 参考訳(メタデータ) (2022-12-17T23:29:14Z) - Increasing the efficiency of randomized trial estimates via linear
adjustment for a prognostic score [59.75318183140857]
ランダム化実験による因果効果の推定は臨床研究の中心である。
歴史的借用法のほとんどは、厳格なタイプiエラー率制御を犠牲にして分散の削減を達成する。
論文 参考訳(メタデータ) (2020-12-17T21:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。