論文の概要: Supervised machine learning for microbiomics: bridging the gap between current and best practices
- arxiv url: http://arxiv.org/abs/2402.17621v4
- Date: Sun, 17 Nov 2024 19:46:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:26:47.177030
- Title: Supervised machine learning for microbiomics: bridging the gap between current and best practices
- Title(参考訳): 微生物学のための機械学習の監督--現状とベストプラクティスのギャップを埋める
- Authors: Natasha K. Dudek, Mariam Chakhvadze, Saba Kobakhidze, Omar Kantidze, Yuriy Gankin,
- Abstract要約: 機械学習(ML)は、臨床微生物学の革新を推進しようとしている。
本研究の目的は、微生物学における現在のML実践の改善に必要な重要な領域を特定することである。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Machine learning (ML) is poised to drive innovations in clinical microbiomics, such as in disease diagnostics and prognostics. However, the successful implementation of ML in these domains necessitates the development of reproducible, interpretable models that meet the rigorous performance standards set by regulatory agencies. This study aims to identify key areas in need of improvement in current ML practices within microbiomics, with a focus on bridging the gap between existing methodologies and the requirements for clinical application. To do so, we analyze 100 peer-reviewed articles from 2021-2022. Within this corpus, datasets have a median size of 161.5 samples, with over one-third containing fewer than 100 samples, signaling a high potential for overfitting. Limited demographic data further raises concerns about generalizability and fairness, with 24% of studies omitting participants' country of residence, and attributes like race/ethnicity, education, and income rarely reported (11%, 2%, and 0%, respectively). Methodological issues are also common; for instance, for 86% of studies we could not confidently rule out test set omission and data leakage, suggesting a strong potential for inflated performance estimates across the literature. Reproducibility is also a concern, with 78% of studies abstaining from sharing their ML code publicly. Based on this analysis, we provide guidance to avoid common pitfalls that can hinder model performance, generalizability, and trustworthiness. An interactive tutorial on applying ML to microbiomics data accompanies the discussion, to help establish and reinforce best practices within the community.
- Abstract(参考訳): 機械学習(ML)は、病気の診断や予後学などの臨床微生物学の革新を推進しようとしている。
しかし、これらの領域におけるMLの実装の成功は、規制当局が定める厳格な性能基準を満たす再現可能な解釈可能なモデルの開発を必要とする。
本研究の目的は、既存の方法論と臨床応用要件とのギャップを埋めることに焦点を当て、微生物学における現在のML実践の改善に必要な重要な領域を特定することである。
そこで我々は2021年から2022年にかけての100件の査読記事を分析した。
このコーパス内では、データセットの中央値は161.5サンプルであり、その3分の1以上が100サンプル未満であり、オーバーフィッティングの可能性が高いことを示している。
限られた人口統計データにより、一般性や公正性への懸念がさらに高まっており、参加者の居住国を除いた研究の24%、人種・民族、教育、所得などの属性がほとんど報告されていない(11%、2%、0%)。
例えば、研究の86%では、テストセットの欠落とデータリークを確実に排除することができませんでした。
再現性も問題であり、研究の78%がMLコードの公開を控えている。
この分析に基づいて、モデルの性能、一般化可能性、信頼性を阻害する共通の落とし穴を避けるためのガイダンスを提供する。
MLを微生物学のデータに適用するインタラクティブなチュートリアルは、コミュニティ内でのベストプラクティスの確立と強化を支援するため、議論に付随する。
関連論文リスト
- Stronger Baseline Models -- A Key Requirement for Aligning Machine Learning Research with Clinical Utility [0.0]
機械学習モデルを高精細な臨床環境にデプロイしようとするとき、よく知られた障壁が存在する。
評価において,より強力なベースラインモデルを含むと,下流効果が重要となることを実証的に示す。
本稿では,MLモデルを臨床現場でより効果的に研究・展開するためのベストプラクティスを提案する。
論文 参考訳(メタデータ) (2024-09-18T16:38:37Z) - Boosting Few-Shot Learning with Disentangled Self-Supervised Learning and Meta-Learning for Medical Image Classification [8.975676404678374]
低データ体制下で訓練されたモデルの性能と一般化能力を改善するための戦略を提案する。
提案手法は、自己教師付き学習環境において学習した特徴をアンタングル化して、下流タスクの表現の堅牢性を向上する事前学習段階から開始する。
次に、メタファインニングのステップを導入し、メタトレーニングとメタテストフェーズの関連クラスを活用するが、レベルは変化する。
論文 参考訳(メタデータ) (2024-03-26T09:36:20Z) - XAI for In-hospital Mortality Prediction via Multimodal ICU Data [57.73357047856416]
マルチモーダルICUデータを用いて病院内死亡率を予測するための,効率的で説明可能なAIソリューションを提案する。
我々は,臨床データから異種入力を受信し,意思決定を行うマルチモーダル・ラーニングを我々のフレームワークに導入する。
我々の枠組みは、医療研究において重要な要素の発見を容易にする他の臨床課題に容易に移行することができる。
論文 参考訳(メタデータ) (2023-12-29T14:28:04Z) - Mixed-Integer Projections for Automated Data Correction of EMRs Improve
Predictions of Sepsis among Hospitalized Patients [7.639610349097473]
本稿では,領域制約として臨床専門知識をシームレスに統合する革新的プロジェクションに基づく手法を提案する。
我々は、患者データの健全な範囲を規定する制約から補正されたデータの距離を測定する。
AUROCは0.865で、精度は0.922で、従来のMLモデルを上回る。
論文 参考訳(メタデータ) (2023-08-21T15:14:49Z) - Deep Learning for Automated Experimentation in Scanning Transmission
Electron Microscopy [0.0]
機械学習(ML)は、()透過電子顕微鏡、走査(S)TEM、イメージング、分光法において、取得後のデータ解析に欠かせないものとなっている。
本稿では, 逐次データ解析とアウト・オブ・ディストリビューションドリフト効果を含む, アクティブMLへの移行に伴う課題について論じる。
これらの考察は、次世代実験におけるMLの運用を総括的に示すものである。
論文 参考訳(メタデータ) (2023-04-04T18:01:56Z) - Interpretability from a new lens: Integrating Stratification and Domain
knowledge for Biomedical Applications [0.0]
本稿では, バイオメディカル問題データセットの k-fold cross-validation (CV) への階層化のための新しい計算手法を提案する。
このアプローチはモデルの安定性を改善し、信頼を確立し、トレーニングされたIMLモデルによって生成された結果の説明を提供する。
論文 参考訳(メタデータ) (2023-03-15T12:02:02Z) - Detecting Shortcut Learning for Fair Medical AI using Shortcut Testing [62.9062883851246]
機械学習は医療の改善に大いに貢献するが、その利用が健康格差を広めたり増幅したりしないことを確実にすることは重要である。
アルゴリズムの不公平性の潜在的な要因の1つ、ショートカット学習は、トレーニングデータにおける不適切な相関に基づいてMLモデルが予測した時に発生する。
マルチタスク学習を用いて,臨床MLシステムの公平性評価の一環として,ショートカット学習の評価と緩和を行う手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:35:38Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Benchmarking Heterogeneous Treatment Effect Models through the Lens of
Interpretability [82.29775890542967]
治療のパーソナライズされた効果を見積もるのは複雑だが、普及している問題である。
ヘテロジニアス処理効果推定に関する機械学習文献の最近の進歩は、洗練されたが不透明なツールの多くを生み出した。
我々は、ポストホックな特徴重要度法を用いて、モデルの予測に影響を及ぼす特徴を特定する。
論文 参考訳(メタデータ) (2022-06-16T17:59:05Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions [80.12620331438052]
深層学習は サイリコの何十億もの分子を 迅速にスクリーニングする 重要なツールとなりました
その重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
論文 参考訳(メタデータ) (2020-06-25T08:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。