論文の概要: Protein language models trained on multiple sequence alignments learn
phylogenetic relationships
- arxiv url: http://arxiv.org/abs/2203.15465v1
- Date: Tue, 29 Mar 2022 12:07:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 23:16:06.699985
- Title: Protein language models trained on multiple sequence alignments learn
phylogenetic relationships
- Title(参考訳): 複数配列アライメントを訓練したタンパク質言語モデルは系統関係を学習する
- Authors: Umberto Lupo, Damiano Sgarbossa, Anne-Florence Bitbol
- Abstract要約: MSAトランスフォーマーの行アテンションの単純な組み合わせは、最先端の非教師なし構造接触予測に繋がった。
同様に単純で普遍的なMSAトランスフォーマーのカラムアテンションの組み合わせは、MSAのシーケンス間のハミング距離と強く相関していることを示す。
- 参考スコア(独自算出の注目度): 0.5639904484784126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised neural language models with attention have recently been
applied to biological sequence data, advancing structure, function and
mutational effect prediction. Some protein language models, including MSA
Transformer and AlphaFold's EvoFormer, take multiple sequence alignments (MSAs)
of evolutionarily related proteins as inputs. Simple combinations of MSA
Transformer's row attentions have led to state-of-the-art unsupervised
structural contact prediction. We demonstrate that similarly simple, and
universal, combinations of MSA Transformer's column attentions strongly
correlate with Hamming distances between sequences in MSAs. Therefore,
MSA-based language models encode detailed phylogenetic relationships. This
could aid them to separate coevolutionary signals encoding functional and
structural constraints from phylogenetic correlations arising from historical
contingency. To test this hypothesis, we generate synthetic MSAs, either
without or with phylogeny, from Potts models trained on natural MSAs. We
demonstrate that unsupervised contact prediction is indeed substantially more
resilient to phylogenetic noise when using MSA Transformer versus inferred
Potts models.
- Abstract(参考訳): 近年,注目される自己教師付きニューラルネットワークモデルが,生物配列データ,構造,機能,突然変異効果予測に応用されている。
msaトランスフォーマーやalphafold's evoformerを含むいくつかのタンパク質言語モデルは、進化的に関連するタンパク質の多重配列アライメント(msas)を入力とする。
MSAトランスフォーマーの行アテンションの単純な組み合わせは、最先端の非教師なし構造接触予測に繋がった。
同様に単純で普遍的なMSAトランスフォーマーのカラムアテンションの組み合わせは、MSAのシーケンス間のハミング距離と強く相関していることを示す。
したがって、MSAに基づく言語モデルは、詳細な系統関係を符号化する。
これにより、機能的および構造的制約をコードする共進化的シグナルと、歴史的な偶然から生じる系統学的相関を分離することができる。
この仮説をテストするために、自然のMSAで訓練されたPottsモデルから、植物学の有無にかかわらず、合成MSAを生成する。
我々は,MSA変換器と推定ポッツモデルを用いた場合,教師なし接触予測は系統的ノイズに対して極めて耐性が高いことを示した。
関連論文リスト
- Weakly supervised covariance matrices alignment through Stiefel matrices
estimation for MEG applications [64.20396555814513]
本稿では,Mixing Model Stiefel Adaptation (MSA)と呼ばれる時系列データに対する新しいドメイン適応手法を提案する。
我々は、ドメイン間の等価な信号分散とペアの対応を確立することにより、ターゲット領域における豊富なラベルのないデータを利用して効果的な予測を行う。
MSAは、Cam-CANデータセットのMEG信号を用いて、タスクの変動を伴う脳年齢回帰の最近の手法より優れている。
論文 参考訳(メタデータ) (2024-01-24T19:04:49Z) - PEvoLM: Protein Sequence Evolutionary Information Language Model [0.0]
タンパク質配列は、アミノ酸(AA)と呼ばれる連続したトークンまたは文字の集合である
本研究では,タンパク質配列を数値ベクトル表現に変換する埋め込み言語モデル(ELMo)を提案する。
このモデルは、次のAAを予測するだけでなく、類似しているが異なる配列から派生した次のAAの確率分布についても訓練された。
論文 参考訳(メタデータ) (2023-08-16T06:46:28Z) - Pairing interacting protein sequences using masked language modeling [0.3222802562733787]
配列アライメントに基づいて訓練されたタンパク質言語モデルを用いて相互作用するタンパク質配列をペア化する手法を開発した。
我々は、MSAトランスフォーマーが、周囲のコンテキストを用いて複数の配列アライメントでマスクされたアミノ酸を埋める能力を利用する。
単一チェーンデータでトレーニングされている間に、チェーン間の共進化をキャプチャできることが示されています。
論文 参考訳(メタデータ) (2023-08-14T13:42:09Z) - Fast and Functional Structured Data Generators Rooted in
Out-of-Equilibrium Physics [62.997667081978825]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - Unsupervised language models for disease variant prediction [3.6942566104432886]
広い配列のデータセットで訓練された1つのタンパク質LMは、あらゆる遺伝子変異ゼロショットに対して病原性を評価することができる。
臨床的にラベル付けされた疾患関連遺伝子の変異について評価すると,その評価性能は最先端技術に匹敵することがわかった。
論文 参考訳(メタデータ) (2022-12-07T22:28:13Z) - Using Signal Processing in Tandem With Adapted Mixture Models for
Classifying Genomic Signals [16.119729980200955]
本稿では,ガウス混合モデルとタンデムの信号処理を併用して,シーケンスのスペクトル表現を改善する手法を提案する。
提案手法は、確立されたベンチマークデータセットに対して、6.06%の精度で類似した最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-11-03T06:10:55Z) - Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文 参考訳(メタデータ) (2022-10-05T20:44:55Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Generative power of a protein language model trained on multiple
sequence alignments [0.5639904484784126]
進化に関連したタンパク質配列の大規模なアンサンブルから始まる計算モデルは、タンパク質ファミリーの表現を捉えている。
MSA Transformerのような複数の配列アライメントに基づいて訓練されたタンパク質言語モデルは、この目的に対して非常に魅力的な候補である。
マスク付き言語モデリングの目的を直接利用して,MSA変換器を用いてシーケンスを生成する反復手法を提案し,検証する。
論文 参考訳(メタデータ) (2022-04-14T16:59:05Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。