論文の概要: Stabilizing Machine Learning for Reproducible and Explainable Results: A Novel Validation Approach to Subject-Specific Insights
- arxiv url: http://arxiv.org/abs/2412.16199v1
- Date: Mon, 16 Dec 2024 23:14:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-29 07:32:29.494167
- Title: Stabilizing Machine Learning for Reproducible and Explainable Results: A Novel Validation Approach to Subject-Specific Insights
- Title(参考訳): 再現性と説明可能な結果のための機械学習の安定化:主観的視点への新しい検証手法
- Authors: Gideon Vos, Liza van Eijk, Zoltan Sarnyai, Mostafa Rahimi Azghadi,
- Abstract要約: 本稿では,一般的なMLモデルを用いて再現可能な性能とロバストな特徴重要度分析を保証する新しい検証手法を提案する。
ドメイン、サンプルサイズ、人口統計の異なる9つのデータセットに対して、1つのランダムフォレスト(RF)モデルをテストしました。
被験者レベルでの重要な特徴を一貫して同定し,グループレベルの特徴重要度分析を改善した。
- 参考スコア(独自算出の注目度): 2.7516838144367735
- License:
- Abstract: Machine Learning is transforming medical research by improving diagnostic accuracy and personalizing treatments. General ML models trained on large datasets identify broad patterns across populations, but their effectiveness is often limited by the diversity of human biology. This has led to interest in subject-specific models that use individual data for more precise predictions. However, these models are costly and challenging to develop. To address this, we propose a novel validation approach that uses a general ML model to ensure reproducible performance and robust feature importance analysis at both group and subject-specific levels. We tested a single Random Forest (RF) model on nine datasets varying in domain, sample size, and demographics. Different validation techniques were applied to evaluate accuracy and feature importance consistency. To introduce variability, we performed up to 400 trials per subject, randomly seeding the ML algorithm for each trial. This generated 400 feature sets per subject, from which we identified top subject-specific features. A group-specific feature importance set was then derived from all subject-specific results. We compared our approach to conventional validation methods in terms of performance and feature importance consistency. Our repeated trials approach, with random seed variation, consistently identified key features at the subject level and improved group-level feature importance analysis using a single general model. Subject-specific models address biological variability but are resource-intensive. Our novel validation technique provides consistent feature importance and improved accuracy within a general ML model, offering a practical and explainable alternative for clinical research.
- Abstract(参考訳): 機械学習は、診断精度を改善し、治療をパーソナライズすることで医学研究を変革している。
大規模なデータセットに基づいてトレーニングされた一般MLモデルは、個体群にまたがる幅広いパターンを識別するが、その効果は人間の生物学の多様性によって制限されることが多い。
このことが、より正確な予測のために個々のデータを使用する主題固有のモデルへの関心につながった。
しかし、これらのモデルは高価で開発が難しい。
そこで本研究では,一般のMLモデルを用いて,再現性のある性能と頑健な特徴重要度をグループレベルと対象レベルの両方で評価する手法を提案する。
ドメイン、サンプルサイズ、人口統計の異なる9つのデータセットに対して、1つのランダムフォレスト(RF)モデルをテストしました。
精度と特徴重要性の整合性を評価するために異なる検証手法を適用した。
可変性を導入するために、各被験者に対して最大400の試行を行い、各試行に対してランダムにMLアルゴリズムをシードした。
これにより、被験者毎の400個の特徴セットが生成され、トップレベルの特徴が特定された。
グループ固有の特徴重要セットは、すべての主観的な結果から導出された。
我々は,従来の検証手法と比較して,性能と特徴の重要性の整合性について比較した。
提案手法は, ランダムな種の変化を伴い, 被験者レベルで重要な特徴を一貫して同定し, グループレベルの特徴重要度分析を1つの一般モデルを用いて改善した。
対象特化モデルは生物学的多様性に対処するが、資源集約である。
本手法は,一般的なMLモデルにおいて,一貫した特徴の重要性と精度の向上を実現し,臨床研究のための実用的で説明可能な代替手段を提供する。
関連論文リスト
- Learning Personalized Treatment Decisions in Precision Medicine: Disentangling Treatment Assignment Bias in Counterfactual Outcome Prediction and Biomarker Identification [0.05277756703318046]
精密医療は、機械学習(ML)と人工知能(AI)を用いて、個々の患者に対して治療決定を調整できる可能性がある
臨床観察データの複雑なバイアスと、生物学的データの高次元的な性質により、大きな課題に直面している。
本研究は,相互情報を用いた多種多様な治療課題バイアスをモデル化し,それらのMLモデルへの影響について検討する。
論文 参考訳(メタデータ) (2024-10-01T08:47:29Z) - Comparative Analysis of Data Preprocessing Methods, Feature Selection
Techniques and Machine Learning Models for Improved Classification and
Regression Performance on Imbalanced Genetic Data [0.0]
本研究では,データ前処理,特徴選択,モデル選択が遺伝的データセット上で訓練されたモデルの性能に及ぼす影響について検討した。
予測変数や対象変数のアウトラヤ/スキューが回帰モデルに挑戦しないことがわかった。
また,クラス不均衡なターゲット変数とスキュード予測器が分類性能にほとんど影響を与えていないことも見出した。
論文 参考訳(メタデータ) (2024-02-22T21:41:27Z) - Dual-stage optimizer for systematic overestimation adjustment applied to
multi-objective genetic algorithms for biomarker selection [0.18648070031379424]
特徴選択法を用いたバイオマーカー同定は,特徴数における予測能力とパシモニーのトレードオフを伴う多目的問題として扱うことができる。
提案するDOSA-MOは多目的最適化ラッパーアルゴリズムで,元の推定値,分散度,および解の特徴セットサイズが過大評価を予測する。
論文 参考訳(メタデータ) (2023-12-27T16:13:14Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Rethinking Mitosis Detection: Towards Diverse Data and Feature
Representation [30.882319057927052]
ミトコンドリア検出のための新しい一般化可能なフレームワーク(MitDet)を提案する。
提案手法は,いくつかの一般的なミトーシス検出データセットにおいて,SOTAのアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-12T03:33:11Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Data-Driven Logistic Regression Ensembles With Applications in Genomics [0.0]
本稿では,正規化とアンサンブルのアイデアを組み合わせた高次元二項分類問題に対する新しいアプローチを提案する。
がん,多発性硬化症,乾皮症などの共通疾患を含むいくつかの医学的データセットを用いて,バイオマーカーの予測精度と同定の点で,本手法の優れた性能を実証した。
論文 参考訳(メタデータ) (2021-02-17T05:57:26Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。