論文の概要: Pairing interacting protein sequences using masked language modeling
- arxiv url: http://arxiv.org/abs/2308.07136v1
- Date: Mon, 14 Aug 2023 13:42:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 13:05:52.882226
- Title: Pairing interacting protein sequences using masked language modeling
- Title(参考訳): マスク言語モデリングを用いた相互作用するタンパク質配列のペアリング
- Authors: Umberto Lupo, Damiano Sgarbossa, Anne-Florence Bitbol
- Abstract要約: 配列アライメントに基づいて訓練されたタンパク質言語モデルを用いて相互作用するタンパク質配列をペア化する手法を開発した。
我々は、MSAトランスフォーマーが、周囲のコンテキストを用いて複数の配列アライメントでマスクされたアミノ酸を埋める能力を利用する。
単一チェーンデータでトレーニングされている間に、チェーン間の共進化をキャプチャできることが示されています。
- 参考スコア(独自算出の注目度): 0.3222802562733787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting which proteins interact together from amino-acid sequences is an
important task. We develop a method to pair interacting protein sequences which
leverages the power of protein language models trained on multiple sequence
alignments, such as MSA Transformer and the EvoFormer module of AlphaFold. We
formulate the problem of pairing interacting partners among the paralogs of two
protein families in a differentiable way. We introduce a method called DiffPALM
that solves it by exploiting the ability of MSA Transformer to fill in masked
amino acids in multiple sequence alignments using the surrounding context. MSA
Transformer encodes coevolution between functionally or structurally coupled
amino acids. We show that it captures inter-chain coevolution, while it was
trained on single-chain data, which means that it can be used
out-of-distribution. Relying on MSA Transformer without fine-tuning, DiffPALM
outperforms existing coevolution-based pairing methods on difficult benchmarks
of shallow multiple sequence alignments extracted from ubiquitous prokaryotic
protein datasets. It also outperforms an alternative method based on a
state-of-the-art protein language model trained on single sequences. Paired
alignments of interacting protein sequences are a crucial ingredient of
supervised deep learning methods to predict the three-dimensional structure of
protein complexes. DiffPALM substantially improves the structure prediction of
some eukaryotic protein complexes by AlphaFold-Multimer, without significantly
deteriorating any of those we tested. It also achieves competitive performance
with using orthology-based pairing.
- Abstract(参考訳): アミノ酸配列から相互作用するタンパク質を予測することは重要な課題である。
我々は,MSAトランスフォーマーやAlphaFoldのEvoFormerモジュールなど,複数の配列アライメントに基づいて訓練されたタンパク質言語モデルのパワーを活用する,相互作用するタンパク質配列のペア化手法を開発した。
異なる方法で2つのタンパク質ファミリーのパラログ間の相互作用パートナーのペアリングの問題を定式化する。
DiffPALMと呼ばれる手法は、MSAトランスフォーマーが周囲のコンテキストを用いて複数の配列配列でマスクされたアミノ酸を埋める能力を活用することで解決する。
MSAトランスフォーマーは機能的または構造的に結合したアミノ酸間の共進化をコードする。
チェーン間の共進化をキャプチャすると同時に、単一チェーンデータでトレーニングしたことも示しています。
DiffPALMは、微調整のないMSAトランスフォーマーを用いて、ユビキタスなプロカリアティックタンパク質データセットから抽出された浅い多重配列アライメントの難しいベンチマークにおいて、既存の共進化に基づくペアリング法より優れている。
また、単一の配列で訓練された最先端のタンパク質言語モデルに基づく代替手法よりも優れている。
相互作用するタンパク質配列のペアアライメントは、タンパク質複合体の3次元構造を予測するための教師付き深層学習法の重要な要素である。
DiffPALMはAlphaFold-Multimerによる真核生物のタンパク質複合体の構造予測を大幅に改善する。
整形学に基づくペアリングを使用することで、競争性能も向上する。
関連論文リスト
- PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for
Efficient and Generalizable Compound-Protein Interaction Prediction [63.50967073653953]
化合物-タンパク質相互作用予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。
既存のディープラーニングベースの手法では、タンパク質配列や構造が単一のモダリティしか利用していない。
CPI予測のためのマルチスケールタンパク質配列構造コントラストフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:51:10Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Protein Sequence and Structure Co-Design with Equivariant Translation [19.816174223173494]
既存のアプローチは自己回帰モデルまたは拡散モデルを用いてタンパク質配列と構造の両方を生成する。
本稿では,タンパク質配列と構造共設計が可能な新しいアプローチを提案する。
我々のモデルは、幾何学的制約と文脈特徴からの相互作用を推論する三角法を意識したエンコーダで構成されている。
全てのタンパク質アミノ酸は翻訳工程で1ショットずつ更新され、推論プロセスが大幅に加速される。
論文 参考訳(メタデータ) (2022-10-17T06:00:12Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - HelixFold-Single: MSA-free Protein Structure Prediction by Using Protein
Language Model as an Alternative [61.984700682903096]
HelixFold-Singleは、大規模なタンパク質言語モデルとAlphaFold2の優れた幾何学的学習能力を組み合わせるために提案されている。
提案手法は,数千万の一次配列を持つ大規模タンパク質言語モデルを事前学習する。
我々は、一次系列のみから原子の3次元座標を予測するために、エンドツーエンドの微分可能なモデルを得る。
論文 参考訳(メタデータ) (2022-07-28T07:30:33Z) - Generative power of a protein language model trained on multiple
sequence alignments [0.5639904484784126]
進化に関連したタンパク質配列の大規模なアンサンブルから始まる計算モデルは、タンパク質ファミリーの表現を捉えている。
MSA Transformerのような複数の配列アライメントに基づいて訓練されたタンパク質言語モデルは、この目的に対して非常に魅力的な候補である。
マスク付き言語モデリングの目的を直接利用して,MSA変換器を用いてシーケンスを生成する反復手法を提案し,検証する。
論文 参考訳(メタデータ) (2022-04-14T16:59:05Z) - Protein language models trained on multiple sequence alignments learn
phylogenetic relationships [0.5639904484784126]
MSAトランスフォーマーの行アテンションの単純な組み合わせは、最先端の非教師なし構造接触予測に繋がった。
同様に単純で普遍的なMSAトランスフォーマーのカラムアテンションの組み合わせは、MSAのシーケンス間のハミング距離と強く相関していることを示す。
論文 参考訳(メタデータ) (2022-03-29T12:07:45Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z) - PANDA: Predicting the change in proteins binding affinity upon mutations
using sequence information [0.3867363075280544]
突然変異に対する結合親和性の変化を決定するには、高度で高価で時間を要するウェットラブ実験が必要である。
計算予測技術の多くは、既知の構造を持つタンパク質複合体に適用性を制限するタンパク質構造を必要とする。
我々は、タンパク質構造ではなくタンパク質配列情報と機械学習技術を用いて、突然変異によるタンパク質結合親和性の変化を正確に予測した。
論文 参考訳(メタデータ) (2020-09-16T17:12:25Z) - Intrinsic-Extrinsic Convolution and Pooling for Learning on 3D Protein
Structures [18.961218808251076]
大規模タンパク質データの深部3次元解析を可能にする2つの新しい学習操作を提案する。
まず、内在的(タンパク質の折り畳みの下での不変)と外因的(結合下での不変)の両方を考慮する新しい畳み込み演算子を導入する。
第2に、階層的なプーリング演算子を導入し、タンパク質がアミノ酸の有限組の再結合であるという事実を活用することにより、マルチスケールのタンパク質分析を可能にする。
論文 参考訳(メタデータ) (2020-07-13T09:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。