論文の概要: Assessing the Feasibility of Early Cancer Detection Using Routine Laboratory Data: An Evaluation of Machine Learning Approaches on an Imbalanced Dataset
- arxiv url: http://arxiv.org/abs/2510.20209v1
- Date: Thu, 23 Oct 2025 04:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.338731
- Title: Assessing the Feasibility of Early Cancer Detection Using Routine Laboratory Data: An Evaluation of Machine Learning Approaches on an Imbalanced Dataset
- Title(参考訳): ルーチン実験データを用いた早期癌検出の可能性の評価:不均衡データセットを用いた機械学習アプローチの評価
- Authors: Shumin Li,
- Abstract要約: 犬における早期がん検出のためのアクセス可能なスクリーニングツールの開発は、獣医学における重要な課題である。
本研究は,Golden Retriever Lifetime Studyコホートを用いたがんリスク分類の可能性を評価する。
通常の検査データには統計的に検出可能ながんシグナルが存在するが、正常な老化やその他の炎症状態から臨床的に信頼性の高い識別を行うには弱く、確立されていないと結論付けている。
- 参考スコア(独自算出の注目度): 0.02030567625639093
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The development of accessible screening tools for early cancer detection in dogs represents a significant challenge in veterinary medicine. Routine laboratory data offer a promising, low-cost source for such tools, but their utility is hampered by the non-specificity of individual biomarkers and the severe class imbalance inherent in screening populations. This study assesses the feasibility of cancer risk classification using the Golden Retriever Lifetime Study (GRLS) cohort under real-world constraints, including the grouping of diverse cancer types and the inclusion of post-diagnosis samples. A comprehensive benchmark evaluation was conducted, systematically comparing 126 analytical pipelines that comprised various machine learning models, feature selection methods, and data balancing techniques. Data were partitioned at the patient level to prevent leakage. The optimal model, a Logistic Regression classifier with class weighting and recursive feature elimination, demonstrated moderate ranking ability (AUROC = 0.815; 95% CI: 0.793-0.836) but poor clinical classification performance (F1-score = 0.25, Positive Predictive Value = 0.15). While a high Negative Predictive Value (0.98) was achieved, insufficient recall (0.79) precludes its use as a reliable rule-out test. Interpretability analysis with SHapley Additive exPlanations (SHAP) revealed that predictions were driven by non-specific features like age and markers of inflammation and anemia. It is concluded that while a statistically detectable cancer signal exists in routine lab data, it is too weak and confounded for clinically reliable discrimination from normal aging or other inflammatory conditions. This work establishes a critical performance ceiling for this data modality in isolation and underscores that meaningful progress in computational veterinary oncology will require integration of multi-modal data sources.
- Abstract(参考訳): 犬における早期がん検出のためのアクセス可能なスクリーニングツールの開発は、獣医学における重要な課題である。
ルーチン研究所のデータは、このようなツールに有望で低コストなソースを提供するが、個々のバイオマーカーの非特異性と、スクリーニング集団に固有の重度の階級的不均衡によってその実用性が妨げられている。
本研究は,Golden Retriever Lifetime Study(GRLS)コホートを用いたがんリスク分類の可能性を評価する。
様々な機械学習モデル、特徴選択方法、データ分散技術を構成する126個の分析パイプラインを体系的に比較し、総合的なベンチマーク評価を行った。
データはリークを防ぐために患者レベルで分割された。
最適モデルは、クラス重み付けと再帰的特徴除去を備えたロジスティック回帰分類器で、適度なランク付け能力(AUROC = 0.815; 95% CI: 0.793-0.836)を示したが、臨床分類性能(F1-score = 0.25, Positive Predictive Value = 0.15)は不十分であった。
高い負の予測値 (0.98) が達成されたが、リコールの不十分 (0.79) は信頼性の高いルールアウトテストとしての使用を妨げている。
SHAP(SHapley Additive exPlanations)による解釈可能性分析では、年齢や炎症や貧血のマーカーといった非特異的な特徴によって予測が導かれることが明らかとなった。
通常の検査データには統計的に検出可能ながんシグナルが存在するが、正常な老化やその他の炎症状態から臨床的に信頼性の高い識別を行うには弱く、確立されていないと結論付けている。
この研究は、このデータモダリティの分離における重要なパフォーマンス天井を確立し、計算獣医学における有意義な進歩がマルチモーダルデータソースの統合を必要とすることを示す。
関連論文リスト
- StackLiverNet: A Novel Stacked Ensemble Model for Accurate and Interpretable Liver Disease Detection [0.0]
StackLiverNetは、肝疾患検出タスクに適した解釈可能なスタック型アンサンブルモデルである。
このフレームワークは、高度なデータ前処理と特徴選択技術を使用して、モデルの堅牢性と予測能力を向上させる。
テスト精度は99.89%、Cohen Kappaは0.9974、AUCは0.9993で、5つの誤分類しかなかった。
論文 参考訳(メタデータ) (2025-07-31T19:13:30Z) - An Explainable AI-Enhanced Machine Learning Approach for Cardiovascular Disease Detection and Risk Assessment [0.0]
心臓病は依然として世界的な健康上の問題である。
従来の診断方法では、心臓病のリスクを正確に特定し、管理することができない。
機械学習は、心臓疾患の診断の正確性、効率、スピードを大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2025-07-15T10:38:38Z) - Machine Learning-Based Model for Postoperative Stroke Prediction in Coronary Artery Disease [0.0]
本研究では,術後脳卒中リスクを評価するための高度な機械学習予測モデルを開発し,評価することを目的とする。
データセットには70%のトレーニングと30%のテストがあり、数値は正規化され、カテゴリ変数は1ホットエンコードされた。
ロジスティック回帰、XGBoost、SVM、CatBoostは予測モデルに使われ、SHAP分析は各変数のストロークリスクを評価した。
論文 参考訳(メタデータ) (2025-03-15T02:50:32Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z) - Predictive Modeling of ICU Healthcare-Associated Infections from
Imbalanced Data. Using Ensembles and a Clustering-Based Undersampling
Approach [55.41644538483948]
本研究は,集中治療室における危険因子の同定と医療関連感染症の予測に焦点をあてる。
感染発生率の低減に向けた意思決定を支援することを目的とする。
論文 参考訳(メタデータ) (2020-05-07T16:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。