論文の概要: A feature-stable and explainable machine learning framework for trustworthy decision-making under incomplete clinical data
- arxiv url: http://arxiv.org/abs/2602.17364v1
- Date: Thu, 19 Feb 2026 13:48:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.04741
- Title: A feature-stable and explainable machine learning framework for trustworthy decision-making under incomplete clinical data
- Title(参考訳): 不完全な臨床データに基づく信頼性の高い意思決定のための特徴安定かつ説明可能な機械学習フレームワーク
- Authors: Justyna Andrys-Olek, Paulina Tworek, Luca Gherardini, Mark W. Ruddock, Mary Jo Kurt, Peter Fitzgerald, Jose Sousa,
- Abstract要約: CACTUS(Comprehensive Abstraction and Classification Tool for Excovering Structures)は、機械学習フレームワークである。
CACTUSは、特徴抽象化、解釈可能な分類、系統的な特徴安定性分析を統合し、データ品質の劣化に伴い、確実に情報的特徴が保持されるかを定量化する。
CACTUSは、不足が増大するにつれて、上位機能の安定性を著しく高く保ちながら、競争力や優れた予測性能を達成することを実証する。
- 参考スコア(独自算出の注目度): 0.14658400971135646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning models are increasingly applied to biomedical data, yet their adoption in high stakes domains remains limited by poor robustness, limited interpretability, and instability of learned features under realistic data perturbations, such as missingness. In particular, models that achieve high predictive performance may still fail to inspire trust if their key features fluctuate when data completeness changes, undermining reproducibility and downstream decision-making. Here, we present CACTUS (Comprehensive Abstraction and Classification Tool for Uncovering Structures), an explainable machine learning framework explicitly designed to address these challenges in small, heterogeneous, and incomplete clinical datasets. CACTUS integrates feature abstraction, interpretable classification, and systematic feature stability analysis to quantify how consistently informative features are preserved as data quality degrades. Using a real-world haematuria cohort comprising 568 patients evaluated for bladder cancer, we benchmark CACTUS against widely used machine learning approaches, including random forests and gradient boosting methods, under controlled levels of randomly introduced missing data. We demonstrate that CACTUS achieves competitive or superior predictive performance while maintaining markedly higher stability of top-ranked features as missingness increases, including in sex-stratified analyses. Our results show that feature stability provides information complementary to conventional performance metrics and is essential for assessing the trustworthiness of machine learning models applied to biomedical data. By explicitly quantifying robustness to missing data and prioritising interpretable, stable features, CACTUS offers a generalizable framework for trustworthy data-driven decision support.
- Abstract(参考訳): 機械学習モデルは、バイオメディカルデータにますます適用されているが、高い利害関係ドメインへの導入は、貧弱な堅牢性、限定的な解釈可能性、そして、欠如のような現実的なデータ摂動の下で学習された機能の不安定性によって制限されている。
特に、高い予測性能を達成するモデルは、データの完全性を変えると重要な機能が変動し、再現性や下流の意思決定が損なわれる場合、信頼を喚起することができない。
本稿では,CACTUS(Comprehensive Abstraction and Classification Tool for Uncovering Structures)について述べる。
CACTUSは、特徴抽象化、解釈可能な分類、系統的な特徴安定性分析を統合し、データ品質の劣化に伴い、確実に情報的特徴が保持されるかを定量化する。
膀胱癌に対して評価された568人の患者からなる実世界のハエミューリアコホートを用いて,ランダム森林や勾配促進法を含む機械学習アプローチに対して,ランダムに導入した欠失データの制御レベル下でCACTUSをベンチマークした。
CACTUSは、性別階層化分析を含む欠如が増大するにつれて、上位機能の安定性を著しく向上しつつ、競争力や優れた予測性能を達成できることを実証した。
以上の結果から, 特徴安定性は従来の性能指標と相補的な情報を提供し, バイオメディカルデータに適用した機械学習モデルの信頼性評価に不可欠であることが示唆された。
CACTUSは、欠落したデータに対する堅牢性を明示的に定量化し、解釈可能な安定した機能を優先することによって、信頼できるデータ駆動意思決定支援のための一般化可能なフレームワークを提供する。
関連論文リスト
- LUME-DBN: Full Bayesian Learning of DBNs from Incomplete data in Intensive Care [0.41292255339309664]
不完全データから動的ベイズネットワークを学習するための新しいギブスサンプリング手法を提案する。
本手法は,重症心身障害患者のシミュレーションデータと実世界集中治療データの両方を用いて評価した。
論文 参考訳(メタデータ) (2025-11-06T13:13:39Z) - Robust Molecular Property Prediction via Densifying Scarce Labeled Data [53.24886143129006]
薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。
本稿では, ラベル付きデータを利用して, 分布内データ(ID)と分布外データ(OOD)を補間する2段階最適化手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T15:27:40Z) - Improving Omics-Based Classification: The Role of Feature Selection and Synthetic Data Generation [0.18846515534317262]
本研究では,特徴選択とデータ拡張技術を統合した機械学習に基づく分類フレームワークを提案する。
提案したパイプラインは、小さなデータセット上で、相互に検証されたパーフォマンスが得られることを示す。
論文 参考訳(メタデータ) (2025-05-06T10:09:50Z) - Conformal uncertainty quantification to evaluate predictive fairness of foundation AI model for skin lesion classes across patient demographics [8.692647930497936]
我々は、コンフォメーション解析を用いて、視覚変換器に基づく基礎モデルの予測不確かさを定量化する。
基礎モデルの特徴埋め込みの堅牢性を評価するために、公正度測定としてどのように使用できるかを示す。
論文 参考訳(メタデータ) (2025-03-31T08:06:00Z) - Explainability of Point Cloud Neural Networks Using SMILE: Statistical Model-Agnostic Interpretability with Local Explanations [0.0]
本研究は,深層ニューラルネットワーク用に設計された新たな説明可能性手法であるSMILEの実装を,ポイントクラウドベースモデルを用いて検討する。
このアプローチは、様々なカーネル幅、摂動数、クラスタリング構成における忠実度損失、R2スコア、ロバストネスの点で優れた性能を示す。
カテゴリの分類におけるデータセットバイアスをさらに特定し、安全クリティカルなアプリケーションにおいてより包括的なデータセットの必要性を強調した。
論文 参考訳(メタデータ) (2024-10-20T12:13:59Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。