論文の概要: Comparison of machine learning and deep learning techniques in promoter
prediction across diverse species
- arxiv url: http://arxiv.org/abs/2105.07659v1
- Date: Mon, 17 May 2021 08:15:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 23:54:42.040268
- Title: Comparison of machine learning and deep learning techniques in promoter
prediction across diverse species
- Title(参考訳): 多様な種間のプロモーター予測における機械学習とディープラーニング技術の比較
- Authors: Nikita Bhandari, Satyajeet Khare, Rahee Walambe, Ketan Kotecha
- Abstract要約: 3つの高等真核生物のゲノム配列を用いたベクターエンコーディング法とプロモーター分類法を検討した。
酵母、A. タリアナおよび人間。
cnnは非プロモーター配列からのプロモーターの分類(バイナリ分類)やプロモーター配列の種別分類(マルチクラス分類)において優れていることがわかった。
- 参考スコア(独自算出の注目度): 1.8899300124593648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gene promoters are the key DNA regulatory elements positioned around the
transcription start sites and are responsible for regulating gene transcription
process. Various alignment-based, signal-based and content-based approaches are
reported for the prediction of promoters. However, since all promoter sequences
do not show explicit features, the prediction performance of these techniques
is poor. Therefore, many machine learning and deep learning models have been
proposed for promoter prediction. In this work, we studied methods for vector
encoding and promoter classification using genome sequences of three distinct
higher eukaryotes viz. yeast (Saccharomyces cerevisiae), A. thaliana (plant)
and human (Homo sapiens). We compared one-hot vector encoding method with
frequency-based tokenization (FBT) for data pre-processing on 1-D Convolutional
Neural Network (CNN) model. We found that FBT gives a shorter input dimension
reducing the training time without affecting the sensitivity and specificity of
classification. We employed the deep learning techniques, mainly CNN and
recurrent neural network with Long Short Term Memory (LSTM) and random forest
(RF) classifier for promoter classification at k-mer sizes of 2, 4 and 8. We
found CNN to be superior in classification of promoters from non-promoter
sequences (binary classification) as well as species-specific classification of
promoter sequences (multiclass classification). In summary, the contribution of
this work lies in the use of synthetic shuffled negative dataset and
frequency-based tokenization for pre-processing. This study provides a
comprehensive and generic framework for classification tasks in genomic
applications and can be extended to various classification problems.
- Abstract(参考訳): 遺伝子プロモーターは転写開始部位の周りに位置する重要なDNA調節因子であり、遺伝子転写の制御に責任がある。
プロモーターの予測には、アライメントに基づく、信号に基づく、およびコンテンツに基づく様々なアプローチが報告されている。
しかし、全てのプロモーターシーケンスは明示的な特徴を示さないため、これらの手法の予測性能は乏しい。
したがって、プロモーター予測のために多くの機械学習モデルやディープラーニングモデルが提案されている。
本研究では,3つの異なる真核生物のゲノム配列を用いたベクターエンコーディングとプロモーター分類の研究を行った。
酵母(Saccharomyces cerevisiae)、A. thaliana(植物)、ヒト(Homo sapiens)。
本研究では,1次元畳み込みニューラルネットワーク(CNN)モデルを用いた1ホットベクトル符号化法と周波数ベースのトークン化(FBT)を比較した。
その結果、FBTは、分類の感度や特異性に影響を与えることなく、トレーニング時間を短縮する入力次元が短いことがわかった。
長期記憶型ニューラルネットワーク(lstm)とランダムフォレスト分類器(rf)を用いて,k-merサイズ2,4,8のプロモーター分類を行った。
cnnは非プロモーター配列からのプロモーターの分類(バイナリ分類)やプロモーター配列の種別分類(マルチクラス分類)において優れていることがわかった。
要約すると、この研究の貢献は、合成シャッフル負のデータセットと周波数ベースのトークン化による前処理である。
本研究は、ゲノム応用における分類タスクの包括的かつ汎用的な枠組みを提供し、様々な分類問題に拡張することができる。
関連論文リスト
- Fixed Random Classifier Rearrangement for Continual Learning [0.5439020425819]
視覚分類のシナリオでは、ニューラルネットワークは新しいタスクを学習した後、必然的に古いタスクの知識を忘れる。
我々はFixed Random Rearrangement (FRCR)という連続学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-23T09:43:58Z) - Neural networks for insurance pricing with frequency and severity data: a benchmark study from data preprocessing to technical tariff [2.4578723416255754]
本稿では,複数種類の入力機能が存在する場合に,頻度と重大度を目標とした4つの保険データ集合に関するベンチマーク研究を行う。
本稿では,2つの入力データに対する一般化線形モデル,勾配ブースト木モデル,フィードフォワードニューラルネットワーク(FFNN),複合アクチュエータニューラルネットワーク(CANN)の性能を詳細に比較する。
論文 参考訳(メタデータ) (2023-10-19T12:00:33Z) - Class Binarization to NeuroEvolution for Multiclass Classification [9.179400849826216]
マルチクラス分類は、機械学習における基本的で挑戦的なタスクである。
多クラス分類をバイナリ分類の集合に分解することは、クラスバイナライゼーション(class binarization)と呼ばれる。
マルチクラス分類のための神経進化のクラスバイナライズ戦略を設計するために,誤り訂正出力符号(ECOC)を適用した新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-26T13:26:13Z) - Optirank: classification for RNA-Seq data with optimal ranking reference
genes [0.0]
そこで我々は,ロジスティック回帰モデルであるOptiicrankを提案し,モデルと遺伝子のパラメータを同時に学習し,ランキングの基準セットとして使用する。
また、列車データと試験データの間に異なる種類の分散シフトを示す実際の分類タスクについても検討する。
論文 参考訳(メタデータ) (2023-01-11T10:49:06Z) - Domain Adaptive Nuclei Instance Segmentation and Classification via
Category-aware Feature Alignment and Pseudo-labelling [65.40672505658213]
本稿では, UDA 核インスタンス分割と分類のための新しいディープニューラルネットワークである Category-Aware 機能アライメントと Pseudo-Labelling Network (CAPL-Net) を提案する。
我々のアプローチは、最先端のUDA手法よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2022-07-04T07:05:06Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - ECINN: Efficient Counterfactuals from Invertible Neural Networks [80.94500245955591]
本稿では, 画像分類における可逆ニューラルネットワークの生成能力を利用して, 対実例を効率的に生成する手法ECINNを提案する。
ECINNはクローズドフォーム表現を持ち、たった2つの評価の時点で反事実を生成する。
私たちの実験では、ECINNがクラス依存イメージ領域を変更して、反現実の知覚的および予測的クラスを変更する方法を示す。
論文 参考訳(メタデータ) (2021-03-25T09:23:24Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z) - Robust Classification of High-Dimensional Spectroscopy Data Using Deep
Learning and Data Synthesis [0.5801044612920815]
分光データのバイナリ分類における局所接続型ニューラルネットワーク(NN)の新たな応用を提案する。
2段階の分類プロセスは、2段階の分類パラダイムと1段階の分類パラダイムの代替として提示される。
論文 参考訳(メタデータ) (2020-03-26T11:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。