論文の概要: CLMB: deep contrastive learning for robust metagenomic binning
- arxiv url: http://arxiv.org/abs/2111.09656v1
- Date: Thu, 18 Nov 2021 12:26:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 13:54:34.478998
- Title: CLMB: deep contrastive learning for robust metagenomic binning
- Title(参考訳): CLMB : 強靭なメダゲノミクスビンニングのための深層的コントラスト学習
- Authors: Pengfei Zhang, Zhengyuan Jiang, Yixuan Wang and Yu Li
- Abstract要約: メタゲノム結合(CLMB)のための深層コントラスト学習フレームワークを提案する。
効率よくノイズの乱れを排除し、より安定で堅牢な結果を生み出すことができる。
CLMBは従来の最先端のバイナリ手法よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 10.076298003343652
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The reconstruction of microbial genomes from large metagenomic datasets is a
critical procedure for finding uncultivated microbial populations and defining
their microbial functional roles. To achieve that, we need to perform
metagenomic binning, clustering the assembled contigs into draft genomes.
Despite the existing computational tools, most of them neglect one important
property of the metagenomic data, that is, the noise. To further improve the
metagenomic binning step and reconstruct better metagenomes, we propose a deep
Contrastive Learning framework for Metagenome Binning (CLMB), which can
efficiently eliminate the disturbance of noise and produce more stable and
robust results. Essentially, instead of denoising the data explicitly, we add
simulated noise to the training data and force the deep learning model to
produce similar and stable representations for both the noise-free data and the
distorted data. Consequently, the trained model will be robust to noise and
handle it implicitly during usage. CLMB outperforms the previous
state-of-the-art binning methods significantly, recovering the most
near-complete genomes on almost all the benchmarking datasets (up to 17\% more
reconstructed genomes compared to the second-best method). It also improves the
performance of bin refinement, reconstructing 8-22 more high-quality genomes
and 15-32 more middle-quality genomes than the second-best result.
Impressively, in addition to being compatible with the binning refiner, single
CLMB even recovers on average 15 more HQ genomes than the refiner of VAMB and
Maxbin on the benchmarking datasets. CLMB is open-source and available at
https://github.com/zpf0117b/CLMB/.
- Abstract(参考訳): 大きなメダゲノミクスデータセットからの微生物ゲノムの再構成は、未培養の微生物集団を発見し、それらの微生物の機能的役割を定義するための重要な手順である。
これを実現するために、我々はメダゲノミクス・ビニングを行い、組立てられたコンティグをドラフトゲノムにまとめる必要がある。
既存の計算ツールにもかかわらず、そのほとんどはメダゲノミクスデータの重要な特性、すなわちノイズを無視している。
メタジェノミーバイナリ化の段階をさらに改善し、より優れたメタジェノミーを再構築するために、ノイズの乱れを効率的に除去し、より安定かつ堅牢な結果を生み出すメタジェノミーバイナリ化(clmb)のための深層コントラスト学習フレームワークを提案する。
本質的には、データを明示的に飾る代わりに、トレーニングデータにシミュレートされたノイズを加え、ディープラーニングモデルにノイズのないデータと歪んだデータの両方に対して、同様の安定した表現を強制する。
したがって、トレーニングされたモデルはノイズに対して堅牢であり、使用中に暗黙的に処理される。
clmbは以前の最先端のバイナリ法を大幅に上回り、ほぼすべてのベンチマークデータセットでほぼ完成に近いゲノムを回収している(第2の方法と比較して最大で17\%の再構成ゲノム)。
また、ビンリファインメントの性能も向上し、8-22の高品質ゲノムと15-32の中間品質ゲノムを2番目の結果よりも再構成する。
驚くべきことに、binning refinerとの互換性に加えて、シングルclmbはベンチマークデータセットのvambとmaxbinの精製機よりも平均15個のhqゲノムで回復する。
CLMBはオープンソースであり、https://github.com/zpf0117b/CLMB/で入手できる。
関連論文リスト
- Artificial Data Point Generation in Clustered Latent Space for Small
Medical Datasets [4.542616945567623]
本稿では,クラスタ化潜在空間(AGCL)における人工データポイント生成手法を提案する。
AGCLは、合成データ生成により、小さな医療データセットの分類性能を向上させるように設計されている。
顔の表情データを利用してパーキンソン病検診に応用した。
論文 参考訳(メタデータ) (2024-09-26T09:51:08Z) - GraSSRep: Graph-Based Self-Supervised Learning for Repeat Detection in
Metagenomic Assembly [24.55141372357102]
反復DNA (repeats) は、正確で効率的なゲノム組立てと配列アライメントに重大な課題をもたらす。
GraSSRepは、DNA配列を反復的および非反復的なカテゴリに分類する自己教師型学習フレームワークである。
GraSSRepはシークエンシング機能と事前定義された学習グラフ機能を組み合わせることで、繰り返し検出における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-02-14T18:26:58Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Reproducibility-Oriented and Privacy-Preserving Genomic Dataset Sharing [8.959228247984337]
本稿では,ゲノムデータセットを共有するための差分プライバシに基づく手法を提案する。
提案手法は, GWAS結果の誤り検出における他の手法よりも優れ, 有効性が向上し, メンバーシップ推論攻撃(MIA)に対するプライバシー保護が向上することを示す。
この手法を利用することで、ゲノム研究者は、データセットの高品質なバージョンを、相違なくプライベートに共有する傾向にある。
論文 参考訳(メタデータ) (2022-09-13T22:20:41Z) - Graph Neural Networks for Microbial Genome Recovery [64.91162205624848]
本稿では,グラフニューラルネットワーク(GNN)を用いて,メダゲノミクスビニングのためのコンティグ表現を学習する際のアセンブリグラフを活用することを提案する。
提案手法であるVaeG-Binは,個々のコンティグの潜在表現を学習するための変分オートエンコーダと,アセンブリグラフ内のコンティグの近傍構造を考慮したGNNを組み合わせる。
論文 参考訳(メタデータ) (2022-04-26T12:49:51Z) - Survival Prediction of Children Undergoing Hematopoietic Stem Cell
Transplantation Using Different Machine Learning Classifiers by Performing
Chi-squared Test and Hyper-parameter Optimization: A Retrospective Analysis [4.067706269490143]
効率的な生存率分類モデルが包括的に提示される。
欠落した値を入力し、ダミー変数符号化を用いてデータを変換し、チ二乗特徴選択を用いて59個の特徴から11個の最も相関した特徴にデータセットを圧縮することにより、合成データセットを生成する。
この点に関しては、決定木(Decision Tree)、ランダムフォレスト(Random Forest)、ロジスティック回帰(Logistic Regression)、K-Nearest Neighbors(K-Nearest Neighbors)、グラディエントブースティング(Gradient Boosting)、Ada Boost(Ada Boost)、XG Boost(XG Boost)など、いくつかの教師付きML手法が訓練された。
論文 参考訳(メタデータ) (2022-01-22T08:01:22Z) - Correlation Clustering Reconstruction in Semi-Adversarial Models [70.11015369368272]
相関クラスタリングは多くのアプリケーションにおいて重要なクラスタリング問題である。
本研究では,ランダムノイズや対向的な修正によって崩壊した潜伏クラスタリングを再構築しようとする,この問題の再構築版について検討する。
論文 参考訳(メタデータ) (2021-08-10T14:46:17Z) - Robust Compressed Sensing MRI with Deep Generative Priors [84.69062247243953]
臨床MRIデータに対するCSGMフレームワークの初成功例を示す。
我々は、高速MRIデータセットから脳スキャンに先立って生成をトレーニングし、Langevin dynamicsによる後部サンプリングが高品質な再構成を実現することを示す。
論文 参考訳(メタデータ) (2021-08-03T08:52:06Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。