論文の概要: Supervised machine learning for microbiomics: bridging the gap between current and best practices
- arxiv url: http://arxiv.org/abs/2402.17621v4
- Date: Sun, 17 Nov 2024 19:46:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:26:47.177030
- Title: Supervised machine learning for microbiomics: bridging the gap between current and best practices
- Title(参考訳): 微生物学のための機械学習の監督--現状とベストプラクティスのギャップを埋める
- Authors: Natasha K. Dudek, Mariam Chakhvadze, Saba Kobakhidze, Omar Kantidze, Yuriy Gankin,
- Abstract要約: 機械学習(ML)は、臨床微生物学の革新を推進しようとしている。
本研究の目的は、微生物学における現在のML実践の改善に必要な重要な領域を特定することである。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Machine learning (ML) is poised to drive innovations in clinical microbiomics, such as in disease diagnostics and prognostics. However, the successful implementation of ML in these domains necessitates the development of reproducible, interpretable models that meet the rigorous performance standards set by regulatory agencies. This study aims to identify key areas in need of improvement in current ML practices within microbiomics, with a focus on bridging the gap between existing methodologies and the requirements for clinical application. To do so, we analyze 100 peer-reviewed articles from 2021-2022. Within this corpus, datasets have a median size of 161.5 samples, with over one-third containing fewer than 100 samples, signaling a high potential for overfitting. Limited demographic data further raises concerns about generalizability and fairness, with 24% of studies omitting participants' country of residence, and attributes like race/ethnicity, education, and income rarely reported (11%, 2%, and 0%, respectively). Methodological issues are also common; for instance, for 86% of studies we could not confidently rule out test set omission and data leakage, suggesting a strong potential for inflated performance estimates across the literature. Reproducibility is also a concern, with 78% of studies abstaining from sharing their ML code publicly. Based on this analysis, we provide guidance to avoid common pitfalls that can hinder model performance, generalizability, and trustworthiness. An interactive tutorial on applying ML to microbiomics data accompanies the discussion, to help establish and reinforce best practices within the community.
- Abstract(参考訳): 機械学習(ML)は、病気の診断や予後学などの臨床微生物学の革新を推進しようとしている。
しかし、これらの領域におけるMLの実装の成功は、規制当局が定める厳格な性能基準を満たす再現可能な解釈可能なモデルの開発を必要とする。
本研究の目的は、既存の方法論と臨床応用要件とのギャップを埋めることに焦点を当て、微生物学における現在のML実践の改善に必要な重要な領域を特定することである。
そこで我々は2021年から2022年にかけての100件の査読記事を分析した。
このコーパス内では、データセットの中央値は161.5サンプルであり、その3分の1以上が100サンプル未満であり、オーバーフィッティングの可能性が高いことを示している。
限られた人口統計データにより、一般性や公正性への懸念がさらに高まっており、参加者の居住国を除いた研究の24%、人種・民族、教育、所得などの属性がほとんど報告されていない(11%、2%、0%)。
例えば、研究の86%では、テストセットの欠落とデータリークを確実に排除することができませんでした。
再現性も問題であり、研究の78%がMLコードの公開を控えている。
この分析に基づいて、モデルの性能、一般化可能性、信頼性を阻害する共通の落とし穴を避けるためのガイダンスを提供する。
MLを微生物学のデータに適用するインタラクティブなチュートリアルは、コミュニティ内でのベストプラクティスの確立と強化を支援するため、議論に付随する。
関連論文リスト
- DispaRisk: Auditing Fairness Through Usable Information [21.521208250966918]
DispaRiskは、マシンラーニングパイプラインの初期段階におけるデータセットの格差の潜在的なリスクを評価するために設計されたフレームワークである。
DispaRiskは、差別のリスクの高いデータセットを特定し、MLパイプライン内のバイアスが発生しやすいモデルファミリーを検出し、これらのバイアスリスクの説明可能性を高める。
この研究は、早期バイアス検出と緩和のための堅牢なツールを提供することにより、より公平なMLシステムの開発に寄与する。
論文 参考訳(メタデータ) (2024-05-20T20:56:01Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Mixed-Integer Projections for Automated Data Correction of EMRs Improve
Predictions of Sepsis among Hospitalized Patients [7.639610349097473]
本稿では,領域制約として臨床専門知識をシームレスに統合する革新的プロジェクションに基づく手法を提案する。
我々は、患者データの健全な範囲を規定する制約から補正されたデータの距離を測定する。
AUROCは0.865で、精度は0.922で、従来のMLモデルを上回る。
論文 参考訳(メタデータ) (2023-08-21T15:14:49Z) - Topologically Regularized Multiple Instance Learning to Harness Data
Scarcity [15.06687736543614]
複数のインスタンス学習モデルは、患者の顕微鏡サンプルを分類するための強力なツールとして登場した。
我々は、この課題を緩和するために、MILにトポロジカル正規化用語を導入します。
MILベンチマークは平均2.8%、合成MILデータセットは15.3%、現実世界のバイオメディカルデータセットは5.5%である。
論文 参考訳(メタデータ) (2023-07-26T08:14:18Z) - Auditing ICU Readmission Rates in an Clinical Database: An Analysis of
Risk Factors and Clinical Outcomes [0.0]
本研究では,30日間の読解問題における臨床データ分類のための機械学習パイプラインを提案する。
公正監査は、平等機会、予測パリティ、偽陽性率パリティ、偽陰性率パリティ基準の格差を明らかにする。
この研究は、人工知能(AI)システムのバイアスと公平性に対処するために、研究者、政策立案者、実践者の協力的努力の必要性を示唆している。
論文 参考訳(メタデータ) (2023-04-12T17:09:38Z) - Detecting Shortcut Learning for Fair Medical AI using Shortcut Testing [62.9062883851246]
機械学習は医療の改善に大いに貢献するが、その利用が健康格差を広めたり増幅したりしないことを確実にすることは重要である。
アルゴリズムの不公平性の潜在的な要因の1つ、ショートカット学習は、トレーニングデータにおける不適切な相関に基づいてMLモデルが予測した時に発生する。
マルチタスク学習を用いて,臨床MLシステムの公平性評価の一環として,ショートカット学習の評価と緩和を行う手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:35:38Z) - Federated Learning Enables Big Data for Rare Cancer Boundary Detection [98.5549882883963]
6大陸にわたる71の医療機関のデータを含む,これまでで最大のフェデレーテッドML研究の結果を報告する。
グリオ芽腫の稀な疾患に対する腫瘍境界自動検出装置を作製した。
当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。
論文 参考訳(メタデータ) (2022-04-22T17:27:00Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Combining Graph Neural Networks and Spatio-temporal Disease Models to
Predict COVID-19 Cases in Germany [0.0]
いくつかの専門家は、新型コロナウイルスの拡散を説明するために人間の移動性を考慮する必要性を求めた。
ほとんどの統計モデルや疫学モデルでは、人間の移動性を符号化するデータを含む非構造化データソースを直接組み込むことはできない。
本稿では,両研究方向のトレードオフを提案し,統計回帰モデルと機械学習モデルの利点を組み合わせた新しい学習手法を提案する。
論文 参考訳(メタデータ) (2021-01-03T16:39:00Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Estimating Structural Target Functions using Machine Learning and
Influence Functions [103.47897241856603]
統計モデルから特定可能な関数として生じる対象関数の統計的機械学習のための新しい枠組みを提案する。
このフレームワークは問題とモデルに依存しないものであり、応用統計学における幅広い対象パラメータを推定するのに使用できる。
我々は、部分的に観測されていない情報を持つランダム/二重ロバストな問題において、いわゆる粗大化に特に焦点をあてた。
論文 参考訳(メタデータ) (2020-08-14T16:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。