論文の概要: Motif Identification using CNN-based Pairwise Subsequence Alignment
Score Prediction
- arxiv url: http://arxiv.org/abs/2101.08385v1
- Date: Thu, 21 Jan 2021 01:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 23:14:50.720440
- Title: Motif Identification using CNN-based Pairwise Subsequence Alignment
Score Prediction
- Title(参考訳): CNNに基づくペアワイズサブシーケンスアライメントスコア予測を用いたモチーフ同定
- Authors: Ethan Jacob Moyer and Anup Das
- Abstract要約: バイオインフォマティクスの一般的な問題は、比較的高頻度のモチーフが特徴の遺伝子調節領域を特定することに関連する。
ペアワイズアライメントスコアを予測するために,k-merフォーマッティングシーケンスで学習した1次元(1次元)畳み込みニューラルネットワークを提案する。
その結果、上位15のモチーフの平均99.3%が1つのベースペア内で正しく識別された。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common problem in bioinformatics is related to identifying gene regulatory
regions marked by relatively high frequencies of motifs, or deoxyribonucleic
acid sequences that often code for transcription and enhancer proteins.
Predicting alignment scores between subsequence k-mers and a given motif
enables the identification of candidate regulatory regions in a gene, which
correspond to the transcription of these proteins. We propose a one-dimensional
(1-D) Convolution Neural Network trained on k-mer formatted sequences
interspaced with the given motif pattern to predict pairwise alignment scores
between the consensus motif and subsequence k-mers. Our model consists of
fifteen layers with three rounds of a one-dimensional convolution layer, a
batch normalization layer, a dense layer, and a 1-D maximum pooling layer. We
train the model using mean squared error loss on four different data sets each
with a different motif pattern randomly inserted in DNA sequences: the first
three data sets have zero, one, and two mutations applied on each inserted
motif, and the fourth data set represents the inserted motif as a
position-specific probability matrix. We use a novel proposed metric in order
to evaluate the model's performance, $S_{\alpha}$, which is based on the
Jaccard Index. We use 10-fold cross validation to evaluate out model. Using
$S_{\alpha}$, we measure the accuracy of the model by identifying the 15
highest-scoring 15-mer indices of the predicted scores that agree with that of
the actual scores within a selected $\alpha$ region. For the best performing
data set, our results indicate on average 99.3% of the top 15 motifs were
identified correctly within a one base pair stride ($\alpha = 1$) in the out of
sample data. To the best of our knowledge, this is a novel approach that
illustrates how data formatted in an intelligent way can be extrapolated using
machine learning.
- Abstract(参考訳): バイオインフォマティクスにおける一般的な問題は、モチーフの比較的高い頻度で特徴付けられる遺伝子制御領域や、転写やエンハンサータンパク質をコードするデオキシリボ核酸配列を特定することである。
サブシーケンスのk-mersと所定のモチーフとのアライメントスコアの予測は、これらのタンパク質の転写に対応する遺伝子の候補調節領域の同定を可能にする。
与えられたモチーフパターンと相互作用するk-merフォーマット配列に基づいて訓練された1次元(1-D)畳み込みニューラルネットワークを提案し、コンセンサスモチーフとサブシーケンスk-mer間のペアのアライメントスコアを予測する。
本モデルでは, 1次元畳み込み層, バッチ正規化層, 高密度層, 1次元最大プーリング層からなる15層からなる。
dna配列にランダムに挿入されたモチーフパターンの異なる4つの異なるデータセットについて平均二乗誤差損失を用いてモデルをトレーニングする。最初の3つのデータセットは、挿入されたモチーフに適用される0、1、および2つの変異を持ち、第4のデータセットは挿入されたモチーフを位置特異的確率行列として表現する。
モデルの性能を評価するために提案された新しい指標である$S_{\alpha}$は、Jaccard Indexに基づいています。
モデルの評価には10倍のクロスバリデーションを使用します。
そこで、$s_{\alpha}$を用いて、選択された$\alpha$領域内の実際のスコアと一致する予測スコアの15-merインデックスを識別することにより、モデルの精度を測定する。
最も優れたデータセットについては、サンプルデータから上位15のモチーフの平均99.3%が1つのベースペアのストライド(\alpha = 1$)内で正しく識別されたことを示している。
私たちの知る限りでは、これはインテリジェントな方法でフォーマットされたデータを機械学習を使って外挿する方法を示す、新しいアプローチです。
関連論文リスト
- Understanding the Natural Language of DNA using Encoder-Decoder Foundation Models with Byte-level Precision [26.107996342704915]
本稿では,Ensemble Nucleotide Byte-level-Decoder(ENBED)基盤モデルを提案する。
我々はMasked Language Modelingを用いて、参照ゲノム配列を用いて基礎モデルを事前訓練し、以下の下流タスクに適用する。
これらの課題のそれぞれにおいて、既存の最先端の成果と比較して顕著な改善が示される。
論文 参考訳(メタデータ) (2023-11-04T06:00:56Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Seq-HyGAN: Sequence Classification via Hypergraph Attention Network [0.0]
シークエンス分類は、健康におけるゲノム分類やビジネスにおける異常検出など、さまざまな領域における幅広い実世界の応用を有する。
シーケンスデータに明示的な機能がないため、機械学習モデルでは難しい。
本稿では,新しいハイパーグラフ注意ネットワークモデル,Seq-HyGANを提案する。
論文 参考訳(メタデータ) (2023-03-04T11:53:33Z) - DenseHybrid: Hybrid Anomaly Detection for Dense Open-set Recognition [1.278093617645299]
異常検出は、正規トレーニングデータの生成的モデリングや、負のトレーニングデータに対する識別によって行うことができる。
本稿では,大きな自然画像に対して密集した開集合認識が可能なハイブリッド異常スコアを提案する。
実験では, 標準密度異常検出ベンチマークと, オープンセット性能の新たな指標であるopen-mIoUについて評価した。
論文 参考訳(メタデータ) (2022-07-06T11:48:50Z) - Conditional set generation using Seq2seq models [52.516563721766445]
条件セット生成は、トークンの入力シーケンスからセットへのマッピングを学習する。
シーケンス・ツー・シーケンス(Seq2seq)モデルは、モデルセット生成において一般的な選択である。
本稿では,ラベル順序空間上の情報的順序を効果的に抽出する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-25T04:17:50Z) - Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition [98.25592165484737]
CMPL(Cross-Model Pseudo-Labeling)と呼ばれる,より効果的な擬似ラベル方式を提案する。
CMPLは、それぞれRGBモダリティとラベル付きデータのみを使用して、Kinetics-400とUCF-101のTop-1の精度を17.6%と25.1%で達成している。
論文 参考訳(メタデータ) (2021-12-17T18:59:41Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Detecting Handwritten Mathematical Terms with Sensor Based Data [71.84852429039881]
本稿では,手書きの数学的用語を自動分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットには異なるライターのデータが含まれており、ラベル文字列は合計15の異なる文字から構成されている。
論文 参考訳(メタデータ) (2021-09-12T19:33:34Z) - DNA-GCN: Graph convolutional networks for predicting DNA-protein binding [4.1600531290054]
シーケンスk-merグラフを構築し、データセット全体のDNA-GCN(DNA-GCN)を学習する。
DNA-GCNは全てのノードに対して1ホット表現を持ち、その後、k-merとシーケンスの両方の埋め込みを共同で学習する。
ENCODEから50のデータセットでモデルを評価した。
論文 参考訳(メタデータ) (2021-06-02T07:36:11Z) - Semi-supervised Neural Chord Estimation Based on a Variational
Autoencoder with Latent Chord Labels and Features [18.498244371257304]
本稿では,自動コード推定のための統計的手法について述べる。
コードアノテーションの入手の有無にかかわらず、音楽信号の有効利用が可能となる。
論文 参考訳(メタデータ) (2020-05-14T15:58:36Z) - Learn to Predict Sets Using Feed-Forward Neural Networks [63.91494644881925]
本稿では、ディープフィードフォワードニューラルネットワークを用いた設定予測の課題に対処する。
未知の置換と基数を持つ集合を予測するための新しい手法を提案する。
関連視覚問題に対する集合定式化の有効性を実証する。
論文 参考訳(メタデータ) (2020-01-30T01:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。