論文の概要: Generalizability of Machine Learning Models: Quantitative Evaluation of
Three Methodological Pitfalls
- arxiv url: http://arxiv.org/abs/2202.01337v1
- Date: Tue, 1 Feb 2022 05:07:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 14:28:45.266703
- Title: Generalizability of Machine Learning Models: Quantitative Evaluation of
Three Methodological Pitfalls
- Title(参考訳): 機械学習モデルの一般化可能性:3つの方法論的落とし穴の定量的評価
- Authors: Farhad Maleki, Katie Ovens, Rajiv Gupta, Caroline Reinhold, Alan
Spatz, Reza Forghani
- Abstract要約: いくつかの医用画像データセットを用いてランダムフォレストとディープ畳み込みニューラルネットワークモデルを実装した。
独立仮定の違反はモデル一般化可能性に大きく影響する可能性が示唆された。
不適切なパフォーマンス指標は誤った結論につながる可能性がある。
- 参考スコア(独自算出の注目度): 1.3870303451896246
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite the great potential of machine learning, the lack of generalizability
has hindered the widespread adoption of these technologies in routine clinical
practice. We investigate three methodological pitfalls: (1) violation of
independence assumption, (2) model evaluation with an inappropriate performance
indicator, and (3) batch effect and how these pitfalls could affect the
generalizability of machine learning models. We implement random forest and
deep convolutional neural network models using several medical imaging
datasets, including head and neck CT, lung CT, chest X-Ray, and
histopathological images, to quantify and illustrate the effect of these
pitfalls. We develop these models with and without the pitfall and compare the
performance of the resulting models in terms of accuracy, precision, recall,
and F1 score. Our results showed that violation of the independence assumption
could substantially affect model generalizability. More specifically, (I)
applying oversampling before splitting data into train, validation and test
sets; (II) performing data augmentation before splitting data; (III)
distributing data points for a subject across training, validation, and test
sets; and (IV) applying feature selection before splitting data led to
superficial boosts in model performance. We also observed that inappropriate
performance indicators could lead to erroneous conclusions. Also, batch effect
could lead to developing models that lack generalizability. The aforementioned
methodological pitfalls lead to machine learning models with over-optimistic
performance. These errors, if made, cannot be captured using internal model
evaluation, and the inaccurate predictions made by the model may lead to wrong
conclusions and interpretations. Therefore, avoiding these pitfalls is a
necessary condition for developing generalizable models.
- Abstract(参考訳): 機械学習の大きな可能性にもかかわらず、一般化性の欠如は、日常的な臨床実践におけるこれらの技術の普及を妨げている。
本研究では,(1)独立性の仮定違反,(2)不適切な性能指標を用いたモデル評価,(3)バッチ効果,(3)これらの落とし穴が機械学習モデルの一般化可能性に与える影響について検討する。
頭頸部ct,肺ct,胸部x線,病理画像など,複数の医用画像データセットを用いてランダムフォレストおよび深層畳み込みニューラルネットワークモデルを実装し,これらの落とし穴の効果を定量化し,示す。
これらのモデルを落とし穴なく開発し、精度、精度、リコール、およびf1スコアの観点から結果モデルの性能を比較する。
その結果,独立仮説違反はモデル一般化可能性に大きく影響を及ぼす可能性が示唆された。
具体的には、(i)データをトレイン、バリデーション、テストセットに分割する前にオーバーサンプリングする、(ii)データを分割する前にデータ拡張を行う、(iii) トレーニング、バリデーション、テストセットを通して被験者のためのデータポイントを配布する、(iv) 分割前に特徴選択を適用すると、モデルパフォーマンスが表面的に向上する。
また,不適切な性能指標が誤った結論につながることも見出した。
また、バッチ効果は一般化性に欠けるモデルの開発につながる可能性がある。
前述の方法論的落とし穴は、過剰に最適化されたパフォーマンスを持つ機械学習モデルにつながる。
これらの誤りは内部モデル評価では捉えられず、モデルによる不正確な予測は間違った結論と解釈をもたらす可能性がある。
したがって、これらの落とし穴を避けることは一般化可能なモデルを開発する上で必要条件である。
関連論文リスト
- A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Evaluating the Fairness of Deep Learning Uncertainty Estimates in
Medical Image Analysis [3.5536769591744557]
深層学習(DL)モデルは多くの医療画像解析タスクで大きな成功を収めている。
しかし、結果として得られたモデルを実際の臨床状況に展開するには、異なるサブ集団間での堅牢性と公平性が必要である。
近年の研究では、人口統計学的サブグループにまたがるDLモデルに有意なバイアスが見られ、モデルに公平性が欠如していることが示されている。
論文 参考訳(メタデータ) (2023-03-06T16:01:30Z) - A prediction and behavioural analysis of machine learning methods for
modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。
その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。
MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文 参考訳(メタデータ) (2023-01-11T11:10:32Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Statistical quantification of confounding bias in predictive modelling [0.0]
未確立モデルと完全構築モデルのnull仮説を探索する部分的および完全共創テストを提案する。
このテストは、非正規および非線形依存の予測であっても、I型エラーと高い統計的パワーに対して厳格な制御を提供する。
論文 参考訳(メタデータ) (2021-11-01T10:35:24Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - A comprehensive study on the prediction reliability of graph neural
networks for virtual screening [0.0]
本稿では,モデルアーキテクチャ,正規化手法,損失関数が分類結果の予測性能および信頼性に与える影響について検討する。
その結果,高い成功率を達成するためには,正則化と推論手法の正しい選択が重要であることが明らかとなった。
論文 参考訳(メタデータ) (2020-03-17T10:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。