論文の概要: ProDOMA: improve PROtein DOMAin classification for third-generation
sequencing reads using deep learning
- arxiv url: http://arxiv.org/abs/2009.12591v1
- Date: Sat, 26 Sep 2020 13:30:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 09:10:31.150086
- Title: ProDOMA: improve PROtein DOMAin classification for third-generation
sequencing reads using deep learning
- Title(参考訳): ProDOMA:ディープラーニングを用いた第3世代シークエンシング読解のためのProtein DOMAin分類の改善
- Authors: Du Nan, Jiayu Shang, Yanni Sun
- Abstract要約: 本稿では,第3世代シーケンシング読み出しのためのドメイン分類を行うディープラーニングモデルProDOMAを紹介する。
3フレームの翻訳エンコーディングを備えたディープニューラルネットワークを使用して、部分的に正しい翻訳から保存された特徴を学習する。
タンパク質のコード配列とヒトゲノムからの実読をシミュレーションした実験では、タンパク質ドメインの分類において、HMMERとDeepFamよりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivation: With the development of third-generation sequencing technologies,
people are able to obtain DNA sequences with lengths from 10s to 100s of kb.
These long reads allow protein domain annotation without assembly, thus can
produce important insights into the biological functions of the underlying
data. However, the high error rate in third-generation sequencing data raises a
new challenge to established domain analysis pipelines. The state-of-the-art
methods are not optimized for noisy reads and have shown unsatisfactory
accuracy of domain classification in third-generation sequencing data. New
computational methods are still needed to improve the performance of domain
prediction in long noisy reads. Results: In this work, we introduce ProDOMA, a
deep learning model that conducts domain classification for third-generation
sequencing reads. It uses deep neural networks with 3-frame translation
encoding to learn conserved features from partially correct translations. In
addition, we formulate our problem as an open-set problem and thus our model
can reject unrelated DNA reads such as those from noncoding regions. In the
experiments on simulated reads of protein coding sequences and real reads from
the human genome, our model outperforms HMMER and DeepFam on protein domain
classification. In summary, ProDOMA is a useful end-to-end protein domain
analysis tool for long noisy reads without relying on error correction.
Availability: The source code and the trained model are freely available at
https://github.com/strideradu/ProDOMA. Contact: yannisun@cityu.edu.hk
- Abstract(参考訳): モチベーション(Motivation):第3世代のシークエンシング技術の発展に伴い、人々は10から100kbのDNA配列を取得できる。
これらの長い読み取りは、アセンブリなしでタンパク質ドメインのアノテーションを可能にするため、基礎となるデータの生物学的機能に関する重要な洞察を生み出すことができる。
しかし、第3世代のシーケンシングデータにおける高いエラー率は、確立されたドメイン分析パイプラインに対する新たな挑戦を引き起こす。
最先端の手法はノイズの読み出しに最適化されておらず,第3世代のシークエンシングデータではドメイン分類の精度が不十分である。
長い雑音の読み出しにおいて、領域予測の性能を改善するために新しい計算方法が必要である。
結果:本研究では,第3世代シーケンシング読解のためのドメイン分類を行う深層学習モデルであるProDOMAを紹介する。
3フレームの翻訳エンコーディングを備えたディープニューラルネットワークを使用して、部分的に正しい翻訳から保存された特徴を学習する。
さらに,我々はオープンセット問題としてこの問題を定式化し,非コーディング領域などの非関連DNA読取を拒否する。
タンパク質のコード配列とヒトゲノムからの実読をシミュレーションした実験では、タンパク質ドメインの分類においてHMMERとDeepFamよりも優れている。
要約すると、ProDOMAは、エラー訂正に頼ることなく、長いノイズのある読み込みに有用なエンドツーエンドのタンパク質ドメイン分析ツールである。
アベイラビリティ: ソースコードとトレーニングされたモデルは、https://github.com/strideradu/prodoma.comから無料で利用できる。
連絡先:yannisun@cityu.edu.hk
関連論文リスト
- Deep Manifold Transformation for Protein Representation Learning [42.43017670985785]
ユニバーサルアンダーラインタンパク質アンダーライン変換(DMTPRL)のための新しいアンダーラインディープアンダーラインマンフォールドアンダーライントランスアプローチを提案する。
学習した埋め込みの品質と適応性を改善するために、多様体学習戦略を採用している。
DMTPRL法は、一般的なデータセットをまたいだ様々な下流タスクにおける最先端のベースラインよりも優れている。
論文 参考訳(メタデータ) (2024-01-12T18:38:14Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of
GPT-Generated Text [82.5469544192645]
ダイバージェントN-Gram解析(DNA-GPT)と呼ばれる新しいトレーニング不要検出手法を提案する。
元の部分と新しい部分の違いをN-gram解析により解析することにより,機械生成テキストと人文テキストの分布に顕著な相違が明らかになった。
その結果, ゼロショットアプローチは, 人文とGPT生成テキストの区別において, 最先端の性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-05-27T03:58:29Z) - Retrieved Sequence Augmentation for Protein Representation Learning [40.13920287967866]
本稿では,タンパク質表現学習のための検索シーケンス拡張について,アライメントや前処理を伴わずに導入する。
本モデルでは,新しいタンパク質ドメインに移行し,デノボタンパク質の予測においてMSAトランスフォーマーより優れていることを示す。
我々の研究はタンパク質の予測における大きなギャップを埋め、タンパク質配列を理解するのに必要なドメイン知識の解読に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-24T10:31:45Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Artificial Text Detection via Examining the Topology of Attention Maps [58.46367297712477]
トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。
BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
論文 参考訳(メタデータ) (2021-09-10T12:13:45Z) - An Uncertainty-Driven GCN Refinement Strategy for Organ Segmentation [53.425900196763756]
本研究では,不確実性解析とグラフ畳み込みネットワークに基づくセグメンテーション改善手法を提案する。
半教師付きグラフ学習問題を定式化するために、特定の入力ボリュームにおける畳み込みネットワークの不確実性レベルを用いる。
本手法は膵臓で1%,脾臓で2%向上し,最先端のCRF改善法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-06T18:55:07Z) - Fader Networks for domain adaptation on fMRI: ABIDE-II study [68.5481471934606]
我々は3次元畳み込みオートエンコーダを用いて、無関係な空間画像表現を実現するとともに、ABIDEデータ上で既存のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-14T16:50:50Z) - ProtTrans: Towards Cracking the Language of Life's Code Through
Self-Supervised Deep Learning and High Performance Computing [2.747785739760799]
計算生物学とバイオインフォマティクスは、NLPから抽出された言語モデルに理想的なタンパク質配列からの膨大なデータ金鉱を提供する。
そこで我々は,最大393億アミノ酸を含むUniRefとBFDのデータに基づいて,2つの自己回帰モデル(Transformer-XL, XLNet)と4つの自己エンコーダモデル(BERT, Albert, Electra, T5)を訓練した。
残余ごとの予測では、最も情報に富んだ埋め込み(ProtT5)の転送は、進化的な情報を用いることなく、初めて最先端技術を上回った。
論文 参考訳(メタデータ) (2020-07-13T07:54:20Z) - AutoML Segmentation for 3D Medical Image Data: Contribution to the MSD
Challenge 2018 [2.9864637081333085]
エンコーダ・デコーダアーキテクチャを用いた3次元畳み込みニューラルネットワークを開発し,本論文で述べる。
異方性ボキセルゲメトリーで作用し、異方性深さを持つ。
論文 参考訳(メタデータ) (2020-05-20T11:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。