Fugu-MT 論文翻訳(概要): Pairing interacting protein sequences using masked language modeling

論文の概要: Pairing interacting protein sequences using masked language modeling

arxiv url: http://arxiv.org/abs/2308.07136v1
Date: Mon, 14 Aug 2023 13:42:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-15 13:05:52.882226
Title: Pairing interacting protein sequences using masked language modeling
Title（参考訳）: マスク言語モデリングを用いた相互作用するタンパク質配列のペアリング
Authors: Umberto Lupo, Damiano Sgarbossa, Anne-Florence Bitbol
Abstract要約: 配列アライメントに基づいて訓練されたタンパク質言語モデルを用いて相互作用するタンパク質配列をペア化する手法を開発した。我々は、MSAトランスフォーマーが、周囲のコンテキストを用いて複数の配列アライメントでマスクされたアミノ酸を埋める能力を利用する。単一チェーンデータでトレーニングされている間に、チェーン間の共進化をキャプチャできることが示されています。
参考スコア（独自算出の注目度）: 0.3222802562733787
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Predicting which proteins interact together from amino-acid sequences is an important task. We develop a method to pair interacting protein sequences which leverages the power of protein language models trained on multiple sequence alignments, such as MSA Transformer and the EvoFormer module of AlphaFold. We formulate the problem of pairing interacting partners among the paralogs of two protein families in a differentiable way. We introduce a method called DiffPALM that solves it by exploiting the ability of MSA Transformer to fill in masked amino acids in multiple sequence alignments using the surrounding context. MSA Transformer encodes coevolution between functionally or structurally coupled amino acids. We show that it captures inter-chain coevolution, while it was trained on single-chain data, which means that it can be used out-of-distribution. Relying on MSA Transformer without fine-tuning, DiffPALM outperforms existing coevolution-based pairing methods on difficult benchmarks of shallow multiple sequence alignments extracted from ubiquitous prokaryotic protein datasets. It also outperforms an alternative method based on a state-of-the-art protein language model trained on single sequences. Paired alignments of interacting protein sequences are a crucial ingredient of supervised deep learning methods to predict the three-dimensional structure of protein complexes. DiffPALM substantially improves the structure prediction of some eukaryotic protein complexes by AlphaFold-Multimer, without significantly deteriorating any of those we tested. It also achieves competitive performance with using orthology-based pairing.
Abstract（参考訳）: アミノ酸配列から相互作用するタンパク質を予測することは重要な課題である。我々は,MSAトランスフォーマーやAlphaFoldのEvoFormerモジュールなど,複数の配列アライメントに基づいて訓練されたタンパク質言語モデルのパワーを活用する,相互作用するタンパク質配列のペア化手法を開発した。異なる方法で2つのタンパク質ファミリーのパラログ間の相互作用パートナーのペアリングの問題を定式化する。 DiffPALMと呼ばれる手法は、MSAトランスフォーマーが周囲のコンテキストを用いて複数の配列配列でマスクされたアミノ酸を埋める能力を活用することで解決する。 MSAトランスフォーマーは機能的または構造的に結合したアミノ酸間の共進化をコードする。チェーン間の共進化をキャプチャすると同時に、単一チェーンデータでトレーニングしたことも示しています。 DiffPALMは、微調整のないMSAトランスフォーマーを用いて、ユビキタスなプロカリアティックタンパク質データセットから抽出された浅い多重配列アライメントの難しいベンチマークにおいて、既存の共進化に基づくペアリング法より優れている。また、単一の配列で訓練された最先端のタンパク質言語モデルに基づく代替手法よりも優れている。相互作用するタンパク質配列のペアアライメントは、タンパク質複合体の3次元構造を予測するための教師付き深層学習法の重要な要素である。 DiffPALMはAlphaFold-Multimerによる真核生物のタンパク質複合体の構造予測を大幅に改善する。整形学に基づくペアリングを使用することで、競争性能も向上する。

関連論文リスト

Understanding protein function with a multimodal retrieval-augmented foundation model [4.281723404774888]
PoET-2は、家族固有の進化的制約の文脈内学習を取り入れた検索強化タンパク質基盤モデルである。 PoET-2はゼロショット変動効果予測において最先端の性能を達成する。
論文参考訳（メタデータ） (2025-08-05T15:11:25Z)
evoBPE: Evolutionary Protein Sequence Tokenization [3.4196611972116786]
現在のサブワードトークン化技術は主に自然言語処理のために開発されたが、タンパク質配列の複雑な構造と機能的特性を適切に表現できないことが多い。本研究は、進化的突然変異パターンを配列分割に統合する新しいトークン化手法であるevoBPEを紹介する。 evoBPEは、タンパク質機能予測、構造モデリング、進化解析における機械学習応用の新しい可能性を開く。
論文参考訳（メタデータ） (2025-03-11T19:19:48Z)
SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文参考訳（メタデータ） (2024-10-31T15:22:03Z)
Structure Language Models for Protein Conformation Generation [66.42864253026053]
伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
論文参考訳（メタデータ） (2024-10-24T03:38:51Z)
DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。 DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文参考訳（メタデータ） (2024-10-17T17:20:24Z)
Learning to Predict Mutation Effects of Protein-Protein Interactions by Microenvironment-aware Hierarchical Prompt Learning [78.38442423223832]
我々は、新しいコードブック事前学習タスク、すなわちマスク付きマイクロ環境モデリングを開発する。突然変異効果予測において、最先端の事前学習法よりも優れた性能と訓練効率を示す。
論文参考訳（メタデータ） (2024-05-16T03:53:21Z)
PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for Efficient and Generalizable Compound-Protein Interaction Prediction [63.50967073653953]
化合物-タンパク質相互作用予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。既存のディープラーニングベースの手法では、タンパク質配列や構造が単一のモダリティしか利用していない。 CPI予測のためのマルチスケールタンパク質配列構造コントラストフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-13T03:51:10Z)
Prot2Text: Multimodal Protein's Function Generation with GNNs and Transformers [18.498779242323582]
本稿では,タンパク質の機能を自由テキスト形式で予測する新しいアプローチであるProt2Textを提案する。エンコーダ・デコーダフレームワークでグラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を組み合わせることにより,本モデルは多種多様なデータ型を効果的に統合する。
論文参考訳（メタデータ） (2023-07-25T09:35:43Z)
Generative power of a protein language model trained on multiple sequence alignments [0.5639904484784126]
進化に関連したタンパク質配列の大規模なアンサンブルから始まる計算モデルは、タンパク質ファミリーの表現を捉えている。 MSA Transformerのような複数の配列アライメントに基づいて訓練されたタンパク質言語モデルは、この目的に対して非常に魅力的な候補である。マスク付き言語モデリングの目的を直接利用して,MSA変換器を用いてシーケンスを生成する反復手法を提案し,検証する。
論文参考訳（メタデータ） (2022-04-14T16:59:05Z)
Protein language models trained on multiple sequence alignments learn phylogenetic relationships [0.5639904484784126]
MSAトランスフォーマーの行アテンションの単純な組み合わせは、最先端の非教師なし構造接触予測に繋がった。同様に単純で普遍的なMSAトランスフォーマーのカラムアテンションの組み合わせは、MSAのシーケンス間のハミング距離と強く相関していることを示す。
論文参考訳（メタデータ） (2022-03-29T12:07:45Z)
Pre-training Co-evolutionary Protein Representation via A Pairwise Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。 Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文参考訳（メタデータ） (2021-10-29T04:01:32Z)
PANDA: Predicting the change in proteins binding affinity upon mutations using sequence information [0.3867363075280544]
突然変異に対する結合親和性の変化を決定するには、高度で高価で時間を要するウェットラブ実験が必要である。計算予測技術の多くは、既知の構造を持つタンパク質複合体に適用性を制限するタンパク質構造を必要とする。我々は、タンパク質構造ではなくタンパク質配列情報と機械学習技術を用いて、突然変異によるタンパク質結合親和性の変化を正確に予測した。
論文参考訳（メタデータ） (2020-09-16T17:12:25Z)
Intrinsic-Extrinsic Convolution and Pooling for Learning on 3D Protein Structures [18.961218808251076]
大規模タンパク質データの深部3次元解析を可能にする2つの新しい学習操作を提案する。まず、内在的(タンパク質の折り畳みの下での不変)と外因的(結合下での不変)の両方を考慮する新しい畳み込み演算子を導入する。第2に、階層的なプーリング演算子を導入し、タンパク質がアミノ酸の有限組の再結合であるという事実を活用することにより、マルチスケールのタンパク質分析を可能にする。
論文参考訳（メタデータ） (2020-07-13T09:02:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。