論文の概要: PEvoLM: Protein Sequence Evolutionary Information Language Model
- arxiv url: http://arxiv.org/abs/2308.08578v1
- Date: Wed, 16 Aug 2023 06:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 19:03:40.931548
- Title: PEvoLM: Protein Sequence Evolutionary Information Language Model
- Title(参考訳): PEvoLM:タンパク質配列進化情報言語モデル
- Authors: Issar Arab
- Abstract要約: タンパク質配列は、アミノ酸(AA)と呼ばれる連続したトークンまたは文字の集合である
本研究では,タンパク質配列を数値ベクトル表現に変換する埋め込み言語モデル(ELMo)を提案する。
このモデルは、次のAAを予測するだけでなく、類似しているが異なる配列から派生した次のAAの確率分布についても訓練された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the exponential increase of the protein sequence databases over time,
multiple-sequence alignment (MSA) methods, like PSI-BLAST, perform exhaustive
and time-consuming database search to retrieve evolutionary information. The
resulting position-specific scoring matrices (PSSMs) of such search engines
represent a crucial input to many machine learning (ML) models in the field of
bioinformatics and computational biology. A protein sequence is a collection of
contiguous tokens or characters called amino acids (AAs). The analogy to
natural language allowed us to exploit the recent advancements in the field of
Natural Language Processing (NLP) and therefore transfer NLP state-of-the-art
algorithms to bioinformatics. This research presents an Embedding Language
Model (ELMo), converting a protein sequence to a numerical vector
representation. While the original ELMo trained a 2-layer bidirectional Long
Short-Term Memory (LSTMs) network following a two-path architecture, one for
the forward and the second for the backward pass, by merging the idea of PSSMs
with the concept of transfer-learning, this work introduces a novel
bidirectional language model (bi-LM) with four times less free parameters and
using rather a single path for both passes. The model was trained not only on
predicting the next AA but also on the probability distribution of the next AA
derived from similar, yet different sequences as summarized in a PSSM,
simultaneously for multi-task learning, hence learning evolutionary information
of protein sequences as well. The network architecture and the pre-trained
model are made available as open source under the permissive MIT license on
GitHub at https://github.com/issararab/PEvoLM.
- Abstract(参考訳): 時間とともにタンパク質配列データベースが指数関数的に増加し、PSI-BLASTのようなマルチシーケンスアライメント(MSA)法は、進化情報を取得するために、徹底的で時間を要するデータベース探索を行う。
このような検索エンジンの位置特異的スコアリング行列(PSSM)は、バイオインフォマティクスと計算生物学の分野における多くの機械学習(ML)モデルにとって重要な入力である。
タンパク質配列は、アミノ酸(AA)と呼ばれる連続したトークンまたは文字の集合である。
自然言語の類似により、NLP(Natural Language Processing)分野の最近の進歩を利用して、NLPの最先端のアルゴリズムをバイオインフォマティクスに転送することができる。
本研究では,タンパク質配列を数値ベクトル表現に変換する埋め込み言語モデル(ELMo)を提案する。
元々のelmoは、pssmsの概念とトランスファーラーニングの概念を融合して、2層2層2方向長短期記憶(lstms)ネットワークを2パスアーキテクチャに従って訓練したが、本研究では4倍のフリーパラメータを持つ新しい双方向言語モデル(bi-lm)を導入し、両者のパスに対して単一のパスを使用する。
このモデルは、次のAAを予測するだけでなく、PSSMで要約された類似の異なる配列から派生した次のAAの確率分布に基づいて訓練され、同時にマルチタスク学習のために、タンパク質配列の進化情報も学習した。
ネットワークアーキテクチャと事前トレーニングされたモデルは、GitHubのhttps://github.com/issararab/PEvoLMでMITライセンス下でオープンソースとして公開されている。
関連論文リスト
- In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Multilingual Sequence-to-Sequence Models for Hebrew NLP [16.010560946005473]
シーケンス・ツー・シーケンス生成アーキテクチャはヘブライ語のような形態的にリッチな言語(MRL)により適していることを示す。
我々は,ヘブライ語NLPパイプラインのタスクをテキスト・テキスト・タスクとしてキャストすることで,マルチリンガルで事前訓練されたシーケンス・ツー・シーケンスモデルをmT5として活用できることを実証した。
論文 参考訳(メタデータ) (2022-12-19T18:10:23Z) - Protein language models trained on multiple sequence alignments learn
phylogenetic relationships [0.5639904484784126]
MSAトランスフォーマーの行アテンションの単純な組み合わせは、最先端の非教師なし構造接触予測に繋がった。
同様に単純で普遍的なMSAトランスフォーマーのカラムアテンションの組み合わせは、MSAのシーケンス間のハミング距離と強く相関していることを示す。
論文 参考訳(メタデータ) (2022-03-29T12:07:45Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Align-gram : Rethinking the Skip-gram Model for Protein Sequence
Analysis [0.8733639720576208]
ベクトル空間において類似の$k$-mersを互いに近接してマッピングできる新しい埋め込みスキームAlign-gramを提案する。
DeepGoPlusのシンプルなベースラインLSTMモデルと非常に複雑なCNNモデルを用いた実験は、タンパク質配列解析のための様々なタイプのディープラーニングアプリケーションを実行する上で、Align-gramの可能性を示している。
論文 参考訳(メタデータ) (2020-12-06T17:04:17Z) - Pre-training Protein Language Models with Label-Agnostic Binding Pairs
Enhances Performance in Downstream Tasks [1.452875650827562]
タンパク質配列の1%未満は構造的にも機能的にも注釈付けされている。
本稿では,結合タンパク質配列と非結合タンパク質配列を混合したRoBERTaモデルを提案する。
トランスフォーマーの注意機構は,タンパク質結合部位の発見に寄与することが示唆された。
論文 参考訳(メタデータ) (2020-12-05T17:37:41Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Improved Code Summarization via a Graph Neural Network [96.03715569092523]
一般に、ソースコード要約技術はソースコードを入力として使用し、自然言語記述を出力する。
これらの要約を生成するために、ASTのデフォルト構造によくマッチするグラフベースのニューラルアーキテクチャを使用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:36:42Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。