論文の概要: Motif Identification using CNN-based Pairwise Subsequence Alignment
Score Prediction
- arxiv url: http://arxiv.org/abs/2101.08385v1
- Date: Thu, 21 Jan 2021 01:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 23:14:50.720440
- Title: Motif Identification using CNN-based Pairwise Subsequence Alignment
Score Prediction
- Title(参考訳): CNNに基づくペアワイズサブシーケンスアライメントスコア予測を用いたモチーフ同定
- Authors: Ethan Jacob Moyer and Anup Das
- Abstract要約: バイオインフォマティクスの一般的な問題は、比較的高頻度のモチーフが特徴の遺伝子調節領域を特定することに関連する。
ペアワイズアライメントスコアを予測するために,k-merフォーマッティングシーケンスで学習した1次元(1次元)畳み込みニューラルネットワークを提案する。
その結果、上位15のモチーフの平均99.3%が1つのベースペア内で正しく識別された。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common problem in bioinformatics is related to identifying gene regulatory
regions marked by relatively high frequencies of motifs, or deoxyribonucleic
acid sequences that often code for transcription and enhancer proteins.
Predicting alignment scores between subsequence k-mers and a given motif
enables the identification of candidate regulatory regions in a gene, which
correspond to the transcription of these proteins. We propose a one-dimensional
(1-D) Convolution Neural Network trained on k-mer formatted sequences
interspaced with the given motif pattern to predict pairwise alignment scores
between the consensus motif and subsequence k-mers. Our model consists of
fifteen layers with three rounds of a one-dimensional convolution layer, a
batch normalization layer, a dense layer, and a 1-D maximum pooling layer. We
train the model using mean squared error loss on four different data sets each
with a different motif pattern randomly inserted in DNA sequences: the first
three data sets have zero, one, and two mutations applied on each inserted
motif, and the fourth data set represents the inserted motif as a
position-specific probability matrix. We use a novel proposed metric in order
to evaluate the model's performance, $S_{\alpha}$, which is based on the
Jaccard Index. We use 10-fold cross validation to evaluate out model. Using
$S_{\alpha}$, we measure the accuracy of the model by identifying the 15
highest-scoring 15-mer indices of the predicted scores that agree with that of
the actual scores within a selected $\alpha$ region. For the best performing
data set, our results indicate on average 99.3% of the top 15 motifs were
identified correctly within a one base pair stride ($\alpha = 1$) in the out of
sample data. To the best of our knowledge, this is a novel approach that
illustrates how data formatted in an intelligent way can be extrapolated using
machine learning.
- Abstract(参考訳): バイオインフォマティクスにおける一般的な問題は、モチーフの比較的高い頻度で特徴付けられる遺伝子制御領域や、転写やエンハンサータンパク質をコードするデオキシリボ核酸配列を特定することである。
サブシーケンスのk-mersと所定のモチーフとのアライメントスコアの予測は、これらのタンパク質の転写に対応する遺伝子の候補調節領域の同定を可能にする。
与えられたモチーフパターンと相互作用するk-merフォーマット配列に基づいて訓練された1次元(1-D)畳み込みニューラルネットワークを提案し、コンセンサスモチーフとサブシーケンスk-mer間のペアのアライメントスコアを予測する。
本モデルでは, 1次元畳み込み層, バッチ正規化層, 高密度層, 1次元最大プーリング層からなる15層からなる。
dna配列にランダムに挿入されたモチーフパターンの異なる4つの異なるデータセットについて平均二乗誤差損失を用いてモデルをトレーニングする。最初の3つのデータセットは、挿入されたモチーフに適用される0、1、および2つの変異を持ち、第4のデータセットは挿入されたモチーフを位置特異的確率行列として表現する。
モデルの性能を評価するために提案された新しい指標である$S_{\alpha}$は、Jaccard Indexに基づいています。
モデルの評価には10倍のクロスバリデーションを使用します。
そこで、$s_{\alpha}$を用いて、選択された$\alpha$領域内の実際のスコアと一致する予測スコアの15-merインデックスを識別することにより、モデルの精度を測定する。
最も優れたデータセットについては、サンプルデータから上位15のモチーフの平均99.3%が1つのベースペアのストライド(\alpha = 1$)内で正しく識別されたことを示している。
私たちの知る限りでは、これはインテリジェントな方法でフォーマットされたデータを機械学習を使って外挿する方法を示す、新しいアプローチです。
- 全文 参考訳へのリンク
関連論文リスト
- Neural Jacobian Fields: Learning Intrinsic Mappings of Arbitrary Meshes [38.157373733083894]
本稿では,ニューラルネットワークによる任意のメッシュの断片的線形マッピングを正確に予測するフレームワークを提案する。
このフレームワークは、グローバルな形状記述子に条件付けされた単一点の行列の予測に神経的な側面を還元することに基づいている。
個々のメッシュの固有の勾配領域で操作することで、フレームワークは高度に正確なマッピングを予測できる。
論文 参考訳(メタデータ) (2022-05-05T19:51:13Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Latent Outlier Exposure for Anomaly Detection with Contaminated Data [31.446666264334528]
異常検出は、ラベルなしデータセットの大多数のデータから体系的なずれを示すデータポイントを特定することを目的としている。
本稿では,広範囲のモデルと互換性のあるラベルのない異常が存在する場合に,異常検知器を訓練するための戦略を提案する。
論文 参考訳(メタデータ) (2022-02-16T14:21:28Z) - Anomaly Detection using Capsule Networks for High-dimensional Datasets [0.0]
本研究では, カプセルネットワークを用いて異常検出を行う。
我々の知る限りでは、これはカプセルネットワークが高次元複素データ設定における異常検出タスクのために解析される最初の事例である。
論文 参考訳(メタデータ) (2021-12-27T05:07:02Z) - Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition [98.25592165484737]
CMPL(Cross-Model Pseudo-Labeling)と呼ばれる,より効果的な擬似ラベル方式を提案する。
CMPLは、それぞれRGBモダリティとラベル付きデータのみを使用して、Kinetics-400とUCF-101のTop-1の精度を17.6%と25.1%で達成している。
論文 参考訳(メタデータ) (2021-12-17T18:59:41Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Detecting Handwritten Mathematical Terms with Sensor Based Data [71.84852429039881]
本稿では,手書きの数学的用語を自動分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットには異なるライターのデータが含まれており、ラベル文字列は合計15の異なる文字から構成されている。
論文 参考訳(メタデータ) (2021-09-12T19:33:34Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z) - DNA-GCN: Graph convolutional networks for predicting DNA-protein binding [4.1600531290054]
シーケンスk-merグラフを構築し、データセット全体のDNA-GCN(DNA-GCN)を学習する。
DNA-GCNは全てのノードに対して1ホット表現を持ち、その後、k-merとシーケンスの両方の埋め込みを共同で学習する。
ENCODEから50のデータセットでモデルを評価した。
論文 参考訳(メタデータ) (2021-06-02T07:36:11Z) - TSGCNet: Discriminative Geometric Feature Learning with Two-Stream
GraphConvolutional Network for 3D Dental Model Segmentation [141.2690520327948]
2流グラフ畳み込みネットワーク(TSGCNet)を提案し、異なる幾何学的特性から多視点情報を学ぶ。
3次元口腔内スキャナーで得られた歯科モデルのリアルタイムデータセットを用いてTSGCNetの評価を行った。
論文 参考訳(メタデータ) (2020-12-26T08:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。