論文の概要: Align-gram : Rethinking the Skip-gram Model for Protein Sequence
Analysis
- arxiv url: http://arxiv.org/abs/2012.03324v1
- Date: Sun, 6 Dec 2020 17:04:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 14:00:13.609589
- Title: Align-gram : Rethinking the Skip-gram Model for Protein Sequence
Analysis
- Title(参考訳): アライングラム : タンパク質配列解析のためのスキップグラムモデルの再検討
- Authors: Nabil Ibtehaz, S. M. Shakhawat Hossain Sourav, Md. Shamsuzzoha Bayzid,
M. Sohel Rahman
- Abstract要約: ベクトル空間において類似の$k$-mersを互いに近接してマッピングできる新しい埋め込みスキームAlign-gramを提案する。
DeepGoPlusのシンプルなベースラインLSTMモデルと非常に複雑なCNNモデルを用いた実験は、タンパク質配列解析のための様々なタイプのディープラーニングアプリケーションを実行する上で、Align-gramの可能性を示している。
- 参考スコア(独自算出の注目度): 0.8733639720576208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: The inception of next generations sequencing technologies have
exponentially increased the volume of biological sequence data. Protein
sequences, being quoted as the `language of life', has been analyzed for a
multitude of applications and inferences.
Motivation: Owing to the rapid development of deep learning, in recent years
there have been a number of breakthroughs in the domain of Natural Language
Processing. Since these methods are capable of performing different tasks when
trained with a sufficient amount of data, off-the-shelf models are used to
perform various biological applications. In this study, we investigated the
applicability of the popular Skip-gram model for protein sequence analysis and
made an attempt to incorporate some biological insights into it.
Results: We propose a novel $k$-mer embedding scheme, Align-gram, which is
capable of mapping the similar $k$-mers close to each other in a vector space.
Furthermore, we experiment with other sequence-based protein representations
and observe that the embeddings derived from Align-gram aids modeling and
training deep learning models better. Our experiments with a simple baseline
LSTM model and a much complex CNN model of DeepGoPlus shows the potential of
Align-gram in performing different types of deep learning applications for
protein sequence analysis.
- Abstract(参考訳): 背景:次世代シークエンシング技術の誕生により,生物配列データの量は指数関数的に増加した。
生命の言語」として引用されるタンパク質配列は、様々な応用と推論のために分析されてきた。
モチベーション: ディープラーニングの急速な発展により、近年では自然言語処理の分野で多くのブレークスルーが発生しています。
これらの方法は、十分な量のデータで訓練された時に異なるタスクを実行することができるため、オフザシェルフモデルは様々な生物学的応用を行うために使用される。
本研究では,人気のあるスキップグラムモデルを用いてタンパク質配列解析を行い,その生物学的知見を組み込む試みを行った。
結果:我々は,類似した$k$-mer をベクトル空間内で互いに近接してマッピングできる,新しい $k$-mer 埋め込みスキームである align-gram を提案する。
さらに、他の配列に基づくタンパク質表現を実験し、Align-gramから派生した埋め込みが深層学習モデルのモデリングと訓練に役立つことを観察する。
DeepGoPlusのシンプルなベースラインLSTMモデルと非常に複雑なCNNモデルを用いた実験は、タンパク質配列解析のための様々なタイプのディープラーニングアプリケーションを実行する上で、Align-gramの可能性を示している。
関連論文リスト
- Modeling Multi-Step Scientific Processes with Graph Transformer Networks [0.0]
回帰タスクに対する幾何学習の有効性は線形モデルの集合に対してベンチマークされた。
グラフトランスフォーマーネットワークは、プロセスステップとシーケンス依存機能の間の隠れた相互作用を特徴とするシナリオにおいて、すべてのテストされた線形モデルを上回った。
論文 参考訳(メタデータ) (2024-08-10T04:03:51Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Target-aware Variational Auto-encoders for Ligand Generation with
Multimodal Protein Representation Learning [2.01243755755303]
ターゲット認識型自動エンコーダであるTargetVAEを導入し、任意のタンパク質標的に対する高い結合親和性で生成する。
これは、タンパク質の異なる表現を単一のモデルに統一する最初の試みであり、これは我々がタンパク質マルチモーダルネットワーク(PMN)と呼ぶ。
論文 参考訳(メタデータ) (2023-08-02T12:08:17Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Improving RNA Secondary Structure Design using Deep Reinforcement
Learning [69.63971634605797]
本稿では,RNA配列設計に強化学習を適用した新しいベンチマークを提案する。このベンチマークでは,目的関数を配列の二次構造における自由エネルギーとして定義する。
本稿では,これらのアルゴリズムに対して行うアブレーション解析の結果と,バッチ間でのアルゴリズムの性能を示すグラフを示す。
論文 参考訳(メタデータ) (2021-11-05T02:54:06Z) - Modeling Protein Using Large-scale Pretrain Language Model [12.568452480689578]
学際的な研究者は、大規模な生物学的データセットをモデル化するためにディープラーニング手法を活用し始めている。
自然言語とタンパク質配列の類似性から着想を得て,進化的タンパク質配列をモデル化するために大規模言語モデルを用いた。
本モデルでは,進化規模個別配列の事前学習から進化情報を正確に捉えることができる。
論文 参考訳(メタデータ) (2021-08-17T04:13:11Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Interpretable Structured Learning with Sparse Gated Sequence Encoder for
Protein-Protein Interaction Prediction [2.9488233765621295]
アミノ酸配列から情報表現を学習することでタンパク質-タンパク質相互作用(PPI)を予測することは、生物学において難しいが重要な問題である。
我々は、シーケンスのみからPPIをモデル化し、予測するための新しいディープフレームワークを提案する。
本モデルでは,シーケンスからコンテキスト化およびシーケンシャル情報を活用することによってシーケンス表現を学習するための双方向ゲート再帰ユニットを組み込んだ。
論文 参考訳(メタデータ) (2020-10-16T17:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。