論文の概要: Pairing interacting protein sequences using masked language modeling
- arxiv url: http://arxiv.org/abs/2308.07136v1
- Date: Mon, 14 Aug 2023 13:42:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 13:05:52.882226
- Title: Pairing interacting protein sequences using masked language modeling
- Title(参考訳): マスク言語モデリングを用いた相互作用するタンパク質配列のペアリング
- Authors: Umberto Lupo, Damiano Sgarbossa, Anne-Florence Bitbol
- Abstract要約: 配列アライメントに基づいて訓練されたタンパク質言語モデルを用いて相互作用するタンパク質配列をペア化する手法を開発した。
我々は、MSAトランスフォーマーが、周囲のコンテキストを用いて複数の配列アライメントでマスクされたアミノ酸を埋める能力を利用する。
単一チェーンデータでトレーニングされている間に、チェーン間の共進化をキャプチャできることが示されています。
- 参考スコア(独自算出の注目度): 0.3222802562733787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting which proteins interact together from amino-acid sequences is an
important task. We develop a method to pair interacting protein sequences which
leverages the power of protein language models trained on multiple sequence
alignments, such as MSA Transformer and the EvoFormer module of AlphaFold. We
formulate the problem of pairing interacting partners among the paralogs of two
protein families in a differentiable way. We introduce a method called DiffPALM
that solves it by exploiting the ability of MSA Transformer to fill in masked
amino acids in multiple sequence alignments using the surrounding context. MSA
Transformer encodes coevolution between functionally or structurally coupled
amino acids. We show that it captures inter-chain coevolution, while it was
trained on single-chain data, which means that it can be used
out-of-distribution. Relying on MSA Transformer without fine-tuning, DiffPALM
outperforms existing coevolution-based pairing methods on difficult benchmarks
of shallow multiple sequence alignments extracted from ubiquitous prokaryotic
protein datasets. It also outperforms an alternative method based on a
state-of-the-art protein language model trained on single sequences. Paired
alignments of interacting protein sequences are a crucial ingredient of
supervised deep learning methods to predict the three-dimensional structure of
protein complexes. DiffPALM substantially improves the structure prediction of
some eukaryotic protein complexes by AlphaFold-Multimer, without significantly
deteriorating any of those we tested. It also achieves competitive performance
with using orthology-based pairing.
- Abstract(参考訳): アミノ酸配列から相互作用するタンパク質を予測することは重要な課題である。
我々は,MSAトランスフォーマーやAlphaFoldのEvoFormerモジュールなど,複数の配列アライメントに基づいて訓練されたタンパク質言語モデルのパワーを活用する,相互作用するタンパク質配列のペア化手法を開発した。
異なる方法で2つのタンパク質ファミリーのパラログ間の相互作用パートナーのペアリングの問題を定式化する。
DiffPALMと呼ばれる手法は、MSAトランスフォーマーが周囲のコンテキストを用いて複数の配列配列でマスクされたアミノ酸を埋める能力を活用することで解決する。
MSAトランスフォーマーは機能的または構造的に結合したアミノ酸間の共進化をコードする。
チェーン間の共進化をキャプチャすると同時に、単一チェーンデータでトレーニングしたことも示しています。
DiffPALMは、微調整のないMSAトランスフォーマーを用いて、ユビキタスなプロカリアティックタンパク質データセットから抽出された浅い多重配列アライメントの難しいベンチマークにおいて、既存の共進化に基づくペアリング法より優れている。
また、単一の配列で訓練された最先端のタンパク質言語モデルに基づく代替手法よりも優れている。
相互作用するタンパク質配列のペアアライメントは、タンパク質複合体の3次元構造を予測するための教師付き深層学習法の重要な要素である。
DiffPALMはAlphaFold-Multimerによる真核生物のタンパク質複合体の構造予測を大幅に改善する。
整形学に基づくペアリングを使用することで、競争性能も向上する。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Structure Language Models for Protein Conformation Generation [66.42864253026053]
伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。
深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。
本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
論文 参考訳(メタデータ) (2024-10-24T03:38:51Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - Learning to Predict Mutation Effects of Protein-Protein Interactions by Microenvironment-aware Hierarchical Prompt Learning [78.38442423223832]
我々は、新しいコードブック事前学習タスク、すなわちマスク付きマイクロ環境モデリングを開発する。
突然変異効果予測において、最先端の事前学習法よりも優れた性能と訓練効率を示す。
論文 参考訳(メタデータ) (2024-05-16T03:53:21Z) - PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for
Efficient and Generalizable Compound-Protein Interaction Prediction [63.50967073653953]
化合物-タンパク質相互作用予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。
既存のディープラーニングベースの手法では、タンパク質配列や構造が単一のモダリティしか利用していない。
CPI予測のためのマルチスケールタンパク質配列構造コントラストフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:51:10Z) - Prot2Text: Multimodal Protein's Function Generation with GNNs and Transformers [18.498779242323582]
本稿では,タンパク質の機能を自由テキスト形式で予測する新しいアプローチであるProt2Textを提案する。
エンコーダ・デコーダフレームワークでグラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を組み合わせることにより,本モデルは多種多様なデータ型を効果的に統合する。
論文 参考訳(メタデータ) (2023-07-25T09:35:43Z) - Generative power of a protein language model trained on multiple
sequence alignments [0.5639904484784126]
進化に関連したタンパク質配列の大規模なアンサンブルから始まる計算モデルは、タンパク質ファミリーの表現を捉えている。
MSA Transformerのような複数の配列アライメントに基づいて訓練されたタンパク質言語モデルは、この目的に対して非常に魅力的な候補である。
マスク付き言語モデリングの目的を直接利用して,MSA変換器を用いてシーケンスを生成する反復手法を提案し,検証する。
論文 参考訳(メタデータ) (2022-04-14T16:59:05Z) - Protein language models trained on multiple sequence alignments learn
phylogenetic relationships [0.5639904484784126]
MSAトランスフォーマーの行アテンションの単純な組み合わせは、最先端の非教師なし構造接触予測に繋がった。
同様に単純で普遍的なMSAトランスフォーマーのカラムアテンションの組み合わせは、MSAのシーケンス間のハミング距離と強く相関していることを示す。
論文 参考訳(メタデータ) (2022-03-29T12:07:45Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - PANDA: Predicting the change in proteins binding affinity upon mutations
using sequence information [0.3867363075280544]
突然変異に対する結合親和性の変化を決定するには、高度で高価で時間を要するウェットラブ実験が必要である。
計算予測技術の多くは、既知の構造を持つタンパク質複合体に適用性を制限するタンパク質構造を必要とする。
我々は、タンパク質構造ではなくタンパク質配列情報と機械学習技術を用いて、突然変異によるタンパク質結合親和性の変化を正確に予測した。
論文 参考訳(メタデータ) (2020-09-16T17:12:25Z) - Intrinsic-Extrinsic Convolution and Pooling for Learning on 3D Protein
Structures [18.961218808251076]
大規模タンパク質データの深部3次元解析を可能にする2つの新しい学習操作を提案する。
まず、内在的(タンパク質の折り畳みの下での不変)と外因的(結合下での不変)の両方を考慮する新しい畳み込み演算子を導入する。
第2に、階層的なプーリング演算子を導入し、タンパク質がアミノ酸の有限組の再結合であるという事実を活用することにより、マルチスケールのタンパク質分析を可能にする。
論文 参考訳(メタデータ) (2020-07-13T09:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。