論文の概要: Resource saving taxonomy classification with k-mer distributions and
machine learning
- arxiv url: http://arxiv.org/abs/2303.06154v1
- Date: Fri, 10 Mar 2023 08:01:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 20:40:42.138799
- Title: Resource saving taxonomy classification with k-mer distributions and
machine learning
- Title(参考訳): k-mer分布と機械学習による資源保存分類
- Authors: Wolfgang Fuhl, Susanne Zabel, Kay Nieselt
- Abstract要約: 我々はDNAから得られた$k$-merの分布を、その分類学的起源を分類するための特徴として用いることを提案する。
以上の結果から,本手法は属レベルでの分類を改良し,スーパーキングダムや植物レベルでの同等の結果が得られることが示された。
- 参考スコア(独自算出の注目度): 2.0196229393131726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern high throughput sequencing technologies like metagenomic sequencing
generate millions of sequences which have to be classified based on their
taxonomic rank. Modern approaches either apply local alignment and comparison
to existing data sets like MMseqs2 or use deep neural networks as it is done in
DeepMicrobes and BERTax. Alignment-based approaches are costly in terms of
runtime, especially since databases get larger and larger. For the deep
learning-based approaches, specialized hardware is necessary for a computation,
which consumes large amounts of energy. In this paper, we propose to use
$k$-mer distributions obtained from DNA as features to classify its taxonomic
origin using machine learning approaches like the subspace $k$-nearest
neighbors algorithm, neural networks or bagged decision trees. In addition, we
propose a feature space data set balancing approach, which allows reducing the
data set for training and improves the performance of the classifiers. By
comparing performance, time, and memory consumption of our approach to those of
state-of-the-art algorithms (BERTax and MMseqs2) using several datasets, we
show that our approach improves the classification on the genus level and
achieves comparable results for the superkingdom and phylum level.
Link:
https://es-cloud.cs.uni-tuebingen.de/d/8e2ab8c3fdd444e1a135/?p=%2FTaxonomyClassification&mode=list
- Abstract(参考訳): メタゲノミクスシークエンシングのような現代の高スループットシークエンシング技術は、その分類階級に基づいて分類されなければならない数百万のシーケンスを生成する。
現代のアプローチでは、ローカルアライメントを適用して、MMseqs2のような既存のデータセットと比較するか、DeepMicrobesやBERTaxのようにディープニューラルネットワークを使用する。
アライメントベースのアプローチは、特にデータベースが大きくなり、実行時にコストがかかる。
ディープラーニングベースのアプローチでは、大量のエネルギーを消費する計算には特別なハードウェアが必要である。
本稿では,DNAから得られた$k$-mer分布を,サブスペース$k$-nearestの隣人アルゴリズム,ニューラルネットワーク,あるいはタグ付き決定木などの機械学習手法を用いて分類する機能として用いることを提案する。
さらに,学習のためのデータセットを削減し,分類器の性能を向上させる機能空間データセットバランス手法を提案する。
複数のデータセットを用いて,我々のアプローチの性能,時間,メモリ消費を最先端アルゴリズム(bertaxとmmseqs2)と比較することにより,本手法は属レベルでの分類を改善し,スーパーキングレベルとフィラムレベルで比較結果を得た。
リンク: https://es-cloud.cs.uni-tuebingen.de/8e2ab8c3fdd444e1a135/?
p=%2FTaxonomyClassification&mode=list
関連論文リスト
- Adaptive $k$-nearest neighbor classifier based on the local estimation of the shape operator [49.87315310656657]
我々は, 局所曲率をサンプルで探索し, 周辺面積を適応的に定義する適応型$k$-nearest(kK$-NN)アルゴリズムを提案する。
多くの実世界のデータセットから、新しい$kK$-NNアルゴリズムは、確立された$k$-NN法と比較してバランスの取れた精度が優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-08T13:08:45Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - Towards Meta-learned Algorithm Selection using Implicit Fidelity
Information [13.750624267664156]
IMFASは、計算コストの低い任意のメタ機能によって容易に豊かになる情報的ランドマークを生産する。
テスト期間中に、ほぼ半分の忠実度シーケンスでSuccessive Halvingを破ることができることを示す。
論文 参考訳(メタデータ) (2022-06-07T09:14:24Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Index $t$-SNE: Tracking Dynamics of High-Dimensional Datasets with
Coherent Embeddings [1.7188280334580195]
本稿では,クラスタの位置を保存した新しいものを作成するために,埋め込みを再利用する手法を提案する。
提案アルゴリズムは,新しい項目を埋め込むために$t$-SNEと同じ複雑さを持つ。
論文 参考訳(メタデータ) (2021-09-22T06:45:37Z) - Transfer learning based few-shot classification using optimal transport
mapping from preprocessed latent space of backbone neural network [0.0]
本論文は,大会における2番目に優れた応募について述べる。
メタラーニング手法は,各クラスに対して,バックボーンネットワークによって生成される潜在空間におけるクラス分布を変化させる。
そこで本研究では,シンクホーンアルゴリズムを用いた最適トランスポートマッピングを提案する。
論文 参考訳(メタデータ) (2021-02-09T23:10:58Z) - Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。
提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。
2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-12-23T09:33:11Z) - Adversarial Examples for $k$-Nearest Neighbor Classifiers Based on
Higher-Order Voronoi Diagrams [69.4411417775822]
逆例は機械学習モデルにおいて広く研究されている現象である。
そこで本研究では,$k$-nearest 近傍分類の逆ロバスト性を評価するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-19T08:49:10Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Imbalance Learning for Variable Star Classification [0.0]
我々は,不均衡な学習問題を克服する階層型機械学習分類手法を開発した。
私たちは'データレベル'アプローチを使用して、トレーニングデータを直接拡張し、表現不足のクラスをよりよく記述します。
階層モデルで$texttGpFit$を使用すると,より高い分類率が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-27T19:01:05Z) - Scalable End-to-end Recurrent Neural Network for Variable star
classification [1.2722697496405464]
本稿では,光曲線の表現を自動的に学習し,正確な自動分類を可能にするエンドツーエンドアルゴリズムを提案する。
提案手法では,データ前処理の最小化,新しい観測および光曲線の計算コストの低減,大規模データセットへのスケールアップが可能となる。
論文 参考訳(メタデータ) (2020-02-03T19:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。