論文の概要: Assessing putative bias in prediction of anti-microbial resistance from
real-world genotyping data under explicit causal assumptions
- arxiv url: http://arxiv.org/abs/2107.03383v1
- Date: Tue, 6 Jul 2021 21:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-09 13:23:47.191366
- Title: Assessing putative bias in prediction of anti-microbial resistance from
real-world genotyping data under explicit causal assumptions
- Title(参考訳): 因果的仮定に基づく実世界のジェノタイピングデータからの抗菌抵抗の予測における推定バイアスの評価
- Authors: Mattia Prosperi, Simone Marini, Christina Boucher, Jiang Bian
- Abstract要約: サンプリングが非ランダム化されているため、AMR予測ツールの開発にはバイアスがかかる。
遺伝子型・フェノタイプAMRデータを用いたAMR予測における確率に基づく再バランスと共起調整の有効性を評価した。
- 参考スコア(独自算出の注目度): 3.795323061432507
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Whole genome sequencing (WGS) is quickly becoming the customary means for
identification of antimicrobial resistance (AMR) due to its ability to obtain
high resolution information about the genes and mechanisms that are causing
resistance and driving pathogen mobility. By contrast, traditional phenotypic
(antibiogram) testing cannot easily elucidate such information. Yet development
of AMR prediction tools from genotype-phenotype data can be biased, since
sampling is non-randomized. Sample provenience, period of collection, and
species representation can confound the association of genetic traits with AMR.
Thus, prediction models can perform poorly on new data with sampling
distribution shifts. In this work -- under an explicit set of causal
assumptions -- we evaluate the effectiveness of propensity-based rebalancing
and confounding adjustment on AMR prediction using genotype-phenotype AMR data
from the Pathosystems Resource Integration Center (PATRIC). We select bacterial
genotypes (encoded as k-mer signatures, i.e. DNA fragments of length k),
country, year, species, and AMR phenotypes for the tetracycline drug class,
preparing test data with recent genomes coming from a single country. We test
boosted logistic regression (BLR) and random forests (RF) with/without
bias-handling. On 10,936 instances, we find evidence of species, location and
year imbalance with respect to the AMR phenotype. The crude versus
bias-adjusted change in effect of genetic signatures on AMR varies but only
moderately (selecting the top 20,000 out of 40+ million k-mers). The area under
the receiver operating characteristic (AUROC) of the RF (0.95) is comparable to
that of BLR (0.94) on both out-of-bag samples from bootstrap and the external
test (n=1,085), where AUROCs do not decrease. We observe a 1%-5% gain in AUROC
with bias-handling compared to the sole use of genetic signatures. ...
- Abstract(参考訳): ゲノムシークエンシング(WGS)は、抵抗性や病原体の移動を誘導する遺伝子やメカニズムに関する高分解能情報を得る能力から、抗生物質耐性(AMR)を識別するための慣習的な手段となりつつある。
対照的に、従来の表現型(アンチバイオグラム)検査はそのような情報を容易に解明できない。
しかし、サンプリングが非ランダム化されているため、ジェノタイプフェノタイプデータからのAMR予測ツールの開発には偏りがある。
サンプルの出芽、採集期間、種表象は、遺伝形質とAMRの関連を解明することができる。
このように、予測モデルはサンプリング分布シフトを伴う新しいデータに対して不適切な処理を行うことができる。
本研究では,PATRIC(Pathosystems Resource Integration Center, PATRIC)の遺伝子型AMRデータを用いたAMR予測において, 相対性に基づく再バランスと整合性調整の有効性を評価する。
細菌の遺伝子型(k-merシグネチャとしてコードされる)を選択する。
長さkのdna断片)、国、年、種、amrの表現型(テトラサイクリン系薬物の分類)は、1つの国からの最近のゲノムでテストデータを準備する。
偏りを伴わずに,ロジスティック回帰(BLR)とランダム森林(RF)を試験した。
10,936例において,AMR表現型に対する種,位置,年不均衡の証拠が発見された。
amrに対する遺伝的シグネチャの効果の粗さとバイアス調整による変化は、適度にしか変化しない(4000万以上のk-merのうち上位2万が選択される)。
RF(0.95)の受信動作特性(AUROC)の下の領域は、ブートストラップと外部テスト(n=1,085)の両方でBLR(0.94)と同等であり、AUROCは減少しない。
遺伝的シグネチャの単独使用と比較して,AUROCの1%-5%の利得をバイアスハンドリングで観察した。
...
関連論文リスト
- CSGDN: Contrastive Signed Graph Diffusion Network for Predicting Crop Gene-phenotype Associations [6.5678927417916455]
我々は、より少ないトレーニングサンプルでロバストなノード表現を学習し、より高いリンク予測精度を実現するために、コントラスト符号付きグラフ拡散ネットワーク(CSGDN)を提案する。
Gossypium hirsutum, Brassica napus, Triticum turgidumの3つの作物データセット上でCSGDNの有効性を検証する実験を行った。
論文 参考訳(メタデータ) (2024-10-10T01:01:10Z) - Regressor-free Molecule Generation to Support Drug Response Prediction [83.25894107956735]
目標IC50スコアに基づく条件生成により、より効率的なサンプリングスペースを得ることができる。
回帰自由誘導は、拡散モデルのスコア推定と、数値ラベルに基づく回帰制御モデルの勾配を結合する。
論文 参考訳(メタデータ) (2024-05-23T13:22:17Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Predicting loss-of-function impact of genetic mutations: a machine
learning approach [0.0]
本稿では,遺伝子変異の属性に基づいて機械学習モデルを学習し,LoFtoolスコアを予測することを目的とする。
これらの属性には、染色体上の突然変異の位置、アミノ酸の変化、変異によって引き起こされるコドンの変化が含まれていた。
モデルは, 平均2乗誤差, 平均2乗誤差, 平均2乗誤差, 平均絶対誤差, 説明分散の5倍のクロスバリデード平均を用いて評価した。
論文 参考訳(メタデータ) (2024-01-26T19:27:38Z) - Isoform Function Prediction Using a Deep Neural Network [9.507435239304591]
研究によると、ヒトのマルチエクソン遺伝子のうち95%以上が代替スプライシングを受けている。
代替スプライシングは、ヒトの健康と病気において重要な役割を果たす。
このプロジェクトは条件付きデータとmRNA配列、発現プロファイル、遺伝子グラフなどの貴重な情報を使用する。
論文 参考訳(メタデータ) (2022-08-05T09:31:25Z) - rfPhen2Gen: A machine learning based association study of brain imaging
phenotypes to genotypes [71.1144397510333]
56個の脳画像QTを用いてSNPを予測する機械学習モデルを学習した。
アルツハイマー病(AD)リスク遺伝子APOEのSNPは、ラスソとランダムな森林に対して最低のRMSEを有していた。
ランダム・フォレストは、線形モデルによって優先順位付けされなかったが、脳関連疾患と関連があることが知られている追加のSNPを特定した。
論文 参考訳(メタデータ) (2022-03-31T20:15:22Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Mycorrhiza: Genotype Assignment usingPhylogenetic Networks [2.286041284499166]
遺伝子型代入問題に対する機械学習手法であるMycorrhizaを紹介する。
提案アルゴリズムは系統ネットワークを用いて,標本間の進化的関係を符号化する特徴を設計する。
Mycorrhizaは、大きな平均固定指数(FST)を持つデータセットやハーディ・ワインバーグ平衡からの偏差で特に顕著な利得を得る。
論文 参考訳(メタデータ) (2020-10-14T02:36:27Z) - Tracking disease outbreaks from sparse data with Bayesian inference [55.82986443159948]
新型コロナウイルス(COVID-19)のパンデミックは、感染発生時の感染率を推定する新たな動機を与える。
標準的な手法は、より細かいスケールで共通する部分的な観測可能性とスパースなデータに対応するのに苦労する。
原理的に部分観測可能なベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-12T20:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。