論文の概要: A Rigorous Machine Learning Analysis Pipeline for Biomedical Binary
Classification: Application in Pancreatic Cancer Nested Case-control Studies
with Implications for Bias Assessments
- arxiv url: http://arxiv.org/abs/2008.12829v2
- Date: Tue, 8 Sep 2020 20:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 01:40:07.035629
- Title: A Rigorous Machine Learning Analysis Pipeline for Biomedical Binary
Classification: Application in Pancreatic Cancer Nested Case-control Studies
with Implications for Bias Assessments
- Title(参考訳): バイオメディカルバイナリ分類のための厳密な機械学習分析パイプライン:膵癌ネストケースコントロール研究への応用とバイアス評価への応用
- Authors: Ryan J. Urbanowicz and Pranshu Suri and Yuhan Cui and Jason H. Moore
and Karen Ruth and Rachael Stolzenberg-Solomon and Shannon M. Lynch
- Abstract要約: バイナリ分類にフォーカスした、厳格で厳格なML分析パイプラインをレイアウトし、組み立てました。
この'自動'だがカスタマイズ可能なパイプラインは、a)探索分析、b)データのクリーニングと変換、c)特徴選択、d)9つの確立されたMLアルゴリズムによるモデルトレーニングを含む。
本パイプラインは,癌に対する確立された,新たに同定されたリスクファクターの疫学的検討に適用し,MLアルゴリズムによって異なるバイアス源がどのように扱われるかを評価する。
- 参考スコア(独自算出の注目度): 2.9726886415710276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) offers a collection of powerful approaches for
detecting and modeling associations, often applied to data having a large
number of features and/or complex associations. Currently, there are many tools
to facilitate implementing custom ML analyses (e.g. scikit-learn). Interest is
also increasing in automated ML packages, which can make it easier for
non-experts to apply ML and have the potential to improve model performance. ML
permeates most subfields of biomedical research with varying levels of rigor
and correct usage. Tremendous opportunities offered by ML are frequently offset
by the challenge of assembling comprehensive analysis pipelines, and the ease
of ML misuse. In this work we have laid out and assembled a complete, rigorous
ML analysis pipeline focused on binary classification (i.e. case/control
prediction), and applied this pipeline to both simulated and real world data.
At a high level, this 'automated' but customizable pipeline includes a)
exploratory analysis, b) data cleaning and transformation, c) feature
selection, d) model training with 9 established ML algorithms, each with
hyperparameter optimization, and e) thorough evaluation, including appropriate
metrics, statistical analyses, and novel visualizations. This pipeline
organizes the many subtle complexities of ML pipeline assembly to illustrate
best practices to avoid bias and ensure reproducibility. Additionally, this
pipeline is the first to compare established ML algorithms to 'ExSTraCS', a
rule-based ML algorithm with the unique capability of interpretably modeling
heterogeneous patterns of association. While designed to be widely applicable
we apply this pipeline to an epidemiological investigation of established and
newly identified risk factors for pancreatic cancer to evaluate how different
sources of bias might be handled by ML algorithms.
- Abstract(参考訳): 機械学習(ml)は、多くの機能や複雑な関連を持つデータにしばしば適用される、関連の検出とモデリングのための強力なアプローチのコレクションを提供する。
現在、カスタムML分析の実装を容易にするツールが多数存在する(Scikit-learnなど)。
mlパッケージの自動化への関心も高まり、非専門家がmlを適用するのが容易になり、モデルパフォーマンスが向上する可能性がある。
mlは多くの生物医学研究のサブフィールドに浸透し、様々なレベルの厳密さと正しい使用法がある。
MLが提供する膨大な機会は、包括的な分析パイプラインを組み立てることの難しさと、ML誤用の容易さによって、しばしば相殺される。
この作業では、バイナリ分類(ケース/コントロール予測)に焦点を当てた、厳密な厳密なML分析パイプラインのレイアウトと組み立てを行い、シミュレーションと実世界のデータの両方にこのパイプラインを適用しました。
高いレベルでは、この'自動化'だがカスタマイズ可能なパイプラインには、
a) 探索分析,
b) データクリーニング及び変換
c) 特徴の選択
d)9つの確立したmlアルゴリズムによるモデルトレーニング、それぞれのハイパーパラメータ最適化
e) 適切な指標、統計分析及び新規な可視化を含む徹底的な評価
このパイプラインはMLパイプラインアセンブリの多くの微妙な複雑さを整理し、バイアスを避け再現性を確保するためのベストプラクティスを説明する。
さらに、このパイプラインは、確立されたMLアルゴリズムをルールベースのMLアルゴリズムである「ExSTraCS」と比較した最初のものである。
広く応用できるように設計されているが,本パイプラインを膵癌に対する確立された,新たに同定された危険因子の疫学的調査に適用し,MLアルゴリズムによって異なるバイアス源がどのように扱われるかを評価する。
関連論文リスト
- Notes on Applicability of Explainable AI Methods to Machine Learning
Models Using Features Extracted by Persistent Homology [0.0]
永続ホモロジー(PH)は機械学習に広く応用されている。
比較的単純なダウンストリーム機械学習モデルで十分なレベルの精度を達成する能力は、これらの抽出された特徴を処理する際に、パイプラインの優れた解釈可能性の基盤となる。
本稿では,このPH-MLパイプラインへの説明可能なAI手法の適用の可能性について検討する。
論文 参考訳(メタデータ) (2023-10-15T08:56:15Z) - Closing the loop: Autonomous experiments enabled by
machine-learning-based online data analysis in synchrotron beamline
environments [80.49514665620008]
機械学習は、大規模または高速に生成されたデータセットを含む研究を強化するために使用できる。
本研究では,X線反射法(XRR)のための閉ループワークフローへのMLの導入について述べる。
本研究では,ビームライン制御ソフトウェア環境に付加的なソフトウェア依存関係を導入することなく,実験中の基本データ解析をリアルタイムで行うソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-20T21:21:19Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - STREAMLINE: A Simple, Transparent, End-To-End Automated Machine Learning
Pipeline Facilitating Data Analysis and Algorithm Comparison [0.49034553215430216]
STREAMLINEはシンプルで透明でエンドツーエンドのAutoMLパイプラインである。
データセット、MLアルゴリズム、その他のAutoMLツールのパフォーマンスを比較するように設計されている。
論文 参考訳(メタデータ) (2022-06-23T22:40:58Z) - Data Debugging with Shapley Importance over End-to-End Machine Learning
Pipelines [27.461398584509755]
DataScopeは、エンドツーエンドの機械学習パイプライン上でトレーニング例のShapley値を効率的に計算する最初のシステムである。
以上の結果から,DataScopeは最先端のモンテカルロ法よりも最大4桁高速であることがわかった。
論文 参考訳(メタデータ) (2022-04-23T19:29:23Z) - Adaptive neighborhood Metric learning [184.95321334661898]
適応的近傍距離距離学習(ANML)という新しい距離距離距離距離距離距離学習アルゴリズムを提案する。
ANMLは線形埋め込みと深層埋め込みの両方を学ぶのに使うことができる。
本手法で提案するemphlog-exp平均関数は,深層学習手法をレビューするための新たな視点を与える。
論文 参考訳(メタデータ) (2022-01-20T17:26:37Z) - Exploring Opportunistic Meta-knowledge to Reduce Search Spaces for
Automated Machine Learning [8.325359814939517]
本稿では,従来の経験から,パイプライン合成/最適化プロセスを開始する前に,利用可能な分類器/回帰器のプールを事前に計算できるかどうかを検討する。
論文 参考訳(メタデータ) (2021-05-01T15:25:30Z) - LCS-DIVE: An Automated Rule-based Machine Learning Visualization
Pipeline for Characterizing Complex Associations in Classification [0.7226144684379191]
本研究では、複雑な生物医学分類のための自動LCS解釈パイプラインであるLCS Discovery Visualization Environment(LCS-DIVE)を紹介する。
LCS-DIVEは、バイオメディカルデータマイニングにおけるノイズとスケーラビリティを克服するために設計されたLCSであるExSTraCSの新しいシキット学習実装を使用してモデリングを行います。
特徴追跡スコアおよび/またはルールを利用して、(1)特徴の重要性(2)基礎となる付加、エピスタティック、および/または異種関係のパターン、(3)クラスタリング、視覚化生成、およびクラスタ尋問を介してモデル駆動の異種サブグループを自動的に評価する。
論文 参考訳(メタデータ) (2021-04-26T19:47:03Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - Localized Debiased Machine Learning: Efficient Inference on Quantile
Treatment Effects and Beyond [69.83813153444115]
因果推論における(局所)量子化処理効果((L)QTE)の効率的な推定式を検討する。
Debiased Machine Learning (DML)は、高次元のニュアンスを推定するデータ分割手法である。
本稿では、この負担のかかるステップを避けるために、局所的脱バイアス機械学習(LDML)を提案する。
論文 参考訳(メタデータ) (2019-12-30T14:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。