論文の概要: ROOFS: RObust biOmarker Feature Selection
- arxiv url: http://arxiv.org/abs/2601.05151v1
- Date: Thu, 08 Jan 2026 17:41:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.310008
- Title: ROOFS: RObust biOmarker Feature Selection
- Title(参考訳): ROOFS:RObust BiOmarker機能選択
- Authors: Anastasiia Bakhmach, Paul Dufossé, Andrea Vaglio, Florence Monville, Laurent Greillier, Fabrice Barlési, Sébastien Benzekry,
- Abstract要約: Roofsは、研究者が問題に適応したFSメソッドの選択を支援するために設計されたPythonパッケージである。
肺がんにおける抗PD-(L)1免疫療法に対する抵抗性の予測因子の同定を目的としたPIONeeR臨床試験のデータに基づく屋根の有用性を実証した。
- 参考スコア(独自算出の注目度): 0.4065263202661619
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Feature selection (FS) is essential for biomarker discovery and in the analysis of biomedical datasets. However, challenges such as high-dimensional feature space, low sample size, multicollinearity, and missing values make FS non-trivial. Moreover, FS performances vary across datasets and predictive tasks. We propose roofs, a Python package available at https://gitlab.inria.fr/compo/roofs, designed to help researchers in the choice of FS method adapted to their problem. Roofs benchmarks multiple FS methods on the user's data and generates reports that summarize a comprehensive set of evaluation metrics, including downstream predictive performance estimated using optimism correction, stability, reliability of individual features, and true positive and false positive rates assessed on semi-synthetic data with a simulated outcome. We demonstrate the utility of roofs on data from the PIONeeR clinical trial, aimed at identifying predictors of resistance to anti-PD-(L)1 immunotherapy in lung cancer. The PIONeeR dataset contained 374 multi-source blood and tumor biomarkers from 435 patients. A reduced subset of 214 features was obtained through iterative variance inflation factor pre-filtering. Of the 34 FS methods gathered in roofs, we evaluated 23 in combination with 11 classifiers (253 models in total) and identified a filter based on the union of Benjamini-Hochberg false discovery rate-adjusted p-values from t-test and logistic regression as the optimal approach, outperforming other methods including the widely used LASSO. We conclude that comprehensive benchmarking with roofs has the potential to improve the robustness and reproducibility of FS discoveries and increase the translational value of clinical models.
- Abstract(参考訳): 特徴選択(FS)はバイオマーカー発見やバイオメディカルデータセットの分析に不可欠である。
しかし、高次元特徴空間、低いサンプルサイズ、多重線型性、欠落値などの課題はFSを非自明にする。
さらに、FSのパフォーマンスはデータセットや予測タスクによって異なります。
roofsというPythonパッケージをhttps://gitlab.inria.fr/compo/roofsで公開しています。
Roofsは、ユーザのデータ上で複数のFSメソッドをベンチマークし、最適化補正、安定性、個々の特徴の信頼性、半合成データに基づいてシミュレートされた真の正と偽の正の比率を用いて推定された下流予測性能を含む、総合的な評価指標をまとめたレポートを生成する。
肺がんにおける抗PD-(L)1免疫療法に対する抵抗性の予測因子の同定を目的としたPIONeeR臨床試験のデータに基づく屋根の有用性を実証した。
PIONeeRデータセットには435人の血液と腫瘍のバイオマーカーが374個含まれていた。
反復分散インフレーション係数プレフィルタにより, 214個の特徴量の低減したサブセットを得た。
屋根に集成した34個のFS法のうち,11個の分類器(合計253モデル)と組み合わせて23個のFS法を評価し,T-testとロジスティック回帰を用いたBenjamini-Hochberg擬似発見率調整p値の結合に基づくフィルタを最適手法として同定し,広く使用されているLASSOを含む他の手法よりも優れた性能を示した。
屋上による総合的なベンチマークにより,FS発見の堅牢性と再現性が向上し,臨床モデルの翻訳価値が向上する可能性が示唆された。
関連論文リスト
- Cross-Representation Benchmarking in Time-Series Electronic Health Records for Clinical Outcome Prediction [44.23284500920266]
このベンチマークは、2つの異なる臨床環境におけるデータキュレーションと評価を標準化する。
実験によると、イベントストリームモデルは、常に最強のパフォーマンスを提供する。
特徴選択戦略は臨床環境に適応する必要がある。
論文 参考訳(メタデータ) (2025-10-10T09:03:47Z) - Skin Cancer Classification: Hybrid CNN-Transformer Models with KAN-Based Fusion [0.0]
Convolutional Kolmogorov-Arnold Network (CKAN) を用いた逐次および並列ハイブリッドCNN-Transformerモデルについて検討する。
そこでCNNは局所的な空間的特徴を抽出し、トランスフォーマーはグローバルな依存関係をモデル化し、CKANは表現学習を改善するために非線形な特徴融合を促進する。
HAM10000データセットで92.81%の精度と92.47%のF1スコア、PAD-UFESデータセットで97.83%のF1スコア、91.79%のF1スコア、91.17%のF1スコアを示す。
論文 参考訳(メタデータ) (2025-08-17T19:57:34Z) - Benchmarking Foundation Models and Parameter-Efficient Fine-Tuning for Prognosis Prediction in Medical Imaging [40.35825564674249]
本研究では,基礎モデルにおける伝達学習戦略の堅牢性と効率性を評価するための最初の構造化されたベンチマークを紹介する。
新型コロナウイルス(COVID-19)の胸部X線データセットが4つ使用されており、死亡率、重症度、入院率をカバーしている。
一般またはバイオメディカルデータセットで事前訓練されたImageNetとFMで事前訓練されたCNNは、完全な微調整、線形探索、パラメータ効率のよい手法を用いて適応された。
論文 参考訳(メタデータ) (2025-06-23T09:16:04Z) - A Copula Based Supervised Filter for Feature Selection in Diabetes Risk Prediction Using Machine Learning [0.0]
我々は,Gumbel copula上尾依存性係数(lambda_U$)を用いて特徴量をランク付けする計算効率の高い教師付きフィルタを提案する。
2つの糖尿病データセット上の4つの分類器で、Mutual Information、mRMR、ReliefF、および$L_1$ Elastic Netを比較した。
上肢依存によるコプラに基づく特徴選択は、公衆衛生・臨床医療におけるリスクモデル構築のための強力で効率的かつ解釈可能なアプローチである。
論文 参考訳(メタデータ) (2025-05-28T16:34:58Z) - Latent Space Class Dispersion: Effective Test Data Quality Assessment for DNNs [45.129846925131055]
Latent Space Class Dispersion (LSCD)は、ディープニューラルネットワーク(DNN)のテストデータセットの品質を定量化する新しいメトリクスである。
実験により,LSCDは画像分類タスクに関連する3つの一般的なベンチマークの試験データセットの欠陥を明らかにし,定量化することを示した。
論文 参考訳(メタデータ) (2025-03-24T15:45:50Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文 参考訳(メタデータ) (2022-10-24T08:57:55Z) - Survival Prediction of Children Undergoing Hematopoietic Stem Cell
Transplantation Using Different Machine Learning Classifiers by Performing
Chi-squared Test and Hyper-parameter Optimization: A Retrospective Analysis [4.067706269490143]
効率的な生存率分類モデルが包括的に提示される。
欠落した値を入力し、ダミー変数符号化を用いてデータを変換し、チ二乗特徴選択を用いて59個の特徴から11個の最も相関した特徴にデータセットを圧縮することにより、合成データセットを生成する。
この点に関しては、決定木(Decision Tree)、ランダムフォレスト(Random Forest)、ロジスティック回帰(Logistic Regression)、K-Nearest Neighbors(K-Nearest Neighbors)、グラディエントブースティング(Gradient Boosting)、Ada Boost(Ada Boost)、XG Boost(XG Boost)など、いくつかの教師付きML手法が訓練された。
論文 参考訳(メタデータ) (2022-01-22T08:01:22Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。