論文の概要: Machine learning applications to DNA subsequence and restriction site
analysis
- arxiv url: http://arxiv.org/abs/2011.03544v5
- Date: Fri, 11 Dec 2020 16:03:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 22:57:38.621839
- Title: Machine learning applications to DNA subsequence and restriction site
analysis
- Title(参考訳): DNAサブシーケンスと制限部位解析への機械学習の適用
- Authors: Ethan J. Moyer (1) and Anup Das (PhD) (2) ((1) School of Biomedical
Engineering, Science and Health Systems, Drexel University, Philadelphia,
Pennsylvania, USA, (2) College of Engineering, Drexel University,
Philadelphia, Pennsylvania, USA)
- Abstract要約: 制限合成は、エンドヌクレアーゼを用いて参照配列からクエリ配列を合成する新規な反復的DNA合成法である。
本研究では、3つの異なる機械学習手法を用いて合成法に適用または適用できないと分類することで、短いサブシーケンスから参照シーケンスを構築する。
SVM、ランダム森林、CNNの感度はそれぞれ94.9%、92.7%、91.4%である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Based on the BioBricks standard, restriction synthesis is a novel catabolic
iterative DNA synthesis method that utilizes endonucleases to synthesize a
query sequence from a reference sequence. In this work, the reference sequence
is built from shorter subsequences by classifying them as applicable or
inapplicable for the synthesis method using three different machine learning
methods: Support Vector Machines (SVMs), random forest, and Convolution Neural
Networks (CNNs). Before applying these methods to the data, a series of feature
selection, curation, and reduction steps are applied to create an accurate and
representative feature space. Following these preprocessing steps, three
different pipelines are proposed to classify subsequences based on their
nucleotide sequence and other relevant features corresponding to the
restriction sites of over 200 endonucleases. The sensitivity using SVMs, random
forest, and CNNs are 94.9%, 92.7%, 91.4%, respectively. Moreover, each method
scores lower in specificity with SVMs, random forest, and CNNs resulting in
77.4%, 85.7%, and 82.4%, respectively. In addition to analyzing these results,
the misclassifications in SVMs and CNNs are investigated. Across these two
models, different features with a derived nucleotide specificity visually
contribute more to classification compared to other features. This observation
is an important factor when considering new nucleotide sensitivity features for
future studies.
- Abstract(参考訳): BioBricks標準に基づいて、制限合成は、エンドヌクレアーゼを用いて参照配列からクエリ配列を合成する新規な触媒的反復DNA合成法である。
本研究では、3つの異なる機械学習手法(サポートベクターマシン(svms)、ランダムフォレスト(random forest)、畳み込みニューラルネットワーク(convolution neural networks:cnns)を用いた合成法に適用可能または適用不可能と分類し、より短いサブシーケンスから参照シーケンスを構築する。
これらの手法をデータに適用する前に、特徴の選択、キュレーション、削減の一連のステップを適用して、正確で代表的な特徴空間を作成する。
これらの前処理工程の後、200以上のエンドヌクレアーゼの制限部位に対応するヌクレオチド配列および他の関連する特徴に基づいてサブ配列を分類する3つの異なるパイプラインが提案されている。
SVM、ランダム森林、CNNの感度はそれぞれ94.9%、92.7%、91.4%である。
さらに、SVM、ランダムフォレスト、CNNでは、それぞれ77.4%、85.7%、82.4%と特異性が低い。
これらの結果の解析に加えて,SVMとCNNの誤分類についても検討した。
これら2つのモデルにまたがって、派生ヌクレオチド特異性を持つ異なる特徴は他の特徴に比べて分類に視覚的に寄与する。
この観察は、将来の研究における新しいヌクレオチド感受性の特徴を考える上で重要な要素である。
関連論文リスト
- Protein sequence classification using natural language processing techniques [3.0846824529023396]
本研究では,75の標的タンパク質クラスからなるデータセットに自然言語処理(NLP)技術を適用した。
我々は,K-Nearest Neighbors (KNN), Multinomial Na"ive Bayes, Logistic Regression, Multi-Layer Perceptron (MLP), Decision Tree, Random Forest, XGBoost, Voting and Stacking Classifiers, Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), Transformer Modelなど,機械学習およびディープラーニングモデルについて検討した。
論文 参考訳(メタデータ) (2024-09-06T13:16:16Z) - DNA Sequence Classification with Compressors [0.0]
本研究は,DNA配列解析に適した圧縮機を用いたパラメータフリー分類法を新たに導入する。
この手法は、精度の観点から現在の最先端と整合するだけでなく、従来の機械学習手法よりもリソース効率の良い代替手段を提供する。
論文 参考訳(メタデータ) (2024-01-25T09:17:19Z) - A novel RNA pseudouridine site prediction model using Utility Kernel and
data-driven parameters [0.7373617024876725]
PseudouridineはRNAの最も頻繁に起こる修飾である。
特定のRNA配列における疑似ウリジン部位を予測する既存のモデルは、主にユーザ定義の機能に依存する。
本稿では,経済のユーティリティ理論に基づく支援ベクトルマシン(SVM)カーネルを提案する。
論文 参考訳(メタデータ) (2023-11-02T08:32:10Z) - Multilayer Multiset Neuronal Networks -- MMNNs [55.2480439325792]
本研究は,2層以上の類似性ニューロンを組み込んだ多層神経回路網について述べる。
また,回避すべき画像領域に割り当てられる反プロトタイプ点の利用についても検討した。
論文 参考訳(メタデータ) (2023-08-28T12:55:13Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Using Signal Processing in Tandem With Adapted Mixture Models for
Classifying Genomic Signals [16.119729980200955]
本稿では,ガウス混合モデルとタンデムの信号処理を併用して,シーケンスのスペクトル表現を改善する手法を提案する。
提案手法は、確立されたベンチマークデータセットに対して、6.06%の精度で類似した最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-11-03T06:10:55Z) - Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文 参考訳(メタデータ) (2022-08-10T13:30:58Z) - Comparing Machine Learning Algorithms with or without Feature Extraction
for DNA Classification [0.7742297876120561]
3つの最先端アルゴリズム、すなわち、畳み込みニューラルネットワーク、ディープニューラルネットワーク、N-gram確率モデルがDNA分類のタスクに使用される。
本稿では,レベンシュテイン距離とランダムに生成されたDNAサブ配列に基づく特徴抽出手法を提案する。
Covid-19、AIDS、インフルエンザ、C型肝炎などのウイルス性疾患に関する4つのデータセットが、それぞれ異なるアプローチを評価するために使用される。
論文 参考訳(メタデータ) (2020-11-01T12:04:54Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。