論文の概要: Pre-Training Protein Encoder via Siamese Sequence-Structure Diffusion
Trajectory Prediction
- arxiv url: http://arxiv.org/abs/2301.12068v2
- Date: Sat, 8 Jul 2023 14:46:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 22:28:33.228840
- Title: Pre-Training Protein Encoder via Siamese Sequence-Structure Diffusion
Trajectory Prediction
- Title(参考訳): siamese配列構造拡散軌道予測によるプリトレーニングタンパク質エンコーダ
- Authors: Zuobai Zhang, Minghao Xu, Aur\'elie Lozano, Vijil Chenthamarakshan,
Payel Das, Jian Tang
- Abstract要約: タンパク質の自己教師付き事前学習法が近年注目され、ほとんどのアプローチはタンパク質配列または構造に焦点をあてている。
配列構造共分散モデルを用いて,タンパク質エンコーダを事前学習するためのDiffPreT手法を提案する。
我々は,シムズ拡散軌道予測(SiamDiff)と呼ばれる手法によりDiffPreTを強化し,タンパク質の異なるコンホメータ間の相関を捉える。
- 参考スコア(独自算出の注目度): 29.375830561817047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised pre-training methods on proteins have recently gained
attention, with most approaches focusing on either protein sequences or
structures, neglecting the exploration of their joint distribution, which is
crucial for a comprehensive understanding of protein functions by integrating
co-evolutionary information and structural characteristics. In this work,
inspired by the success of denoising diffusion models in generative tasks, we
propose the DiffPreT approach to pre-train a protein encoder by
sequence-structure joint diffusion modeling. DiffPreT guides the encoder to
recover the native protein sequences and structures from the perturbed ones
along the joint diffusion trajectory, which acquires the joint distribution of
sequences and structures. Considering the essential protein conformational
variations, we enhance DiffPreT by a method called Siamese Diffusion Trajectory
Prediction (SiamDiff) to capture the correlation between different conformers
of a protein. SiamDiff attains this goal by maximizing the mutual information
between representations of diffusion trajectories of structurally-correlated
conformers. We study the effectiveness of DiffPreT and SiamDiff on both atom-
and residue-level structure-based protein understanding tasks. Experimental
results show that the performance of DiffPreT is consistently competitive on
all tasks, and SiamDiff achieves new state-of-the-art performance, considering
the mean ranks on all tasks. Our implementation is available at
https://github.com/DeepGraphLearning/SiamDiff.
- Abstract(参考訳): タンパク質の自己教師付き事前学習法は最近注目され、ほとんどのアプローチはタンパク質配列または構造に焦点をあて、共進化情報と構造特性を統合することによってタンパク質の機能の包括的理解に不可欠であるそれらの共同分布の探索を無視している。
本研究は, 生成タスクにおける拡散モデル決定の成功に触発されて, 配列構造共分散モデリングによるタンパク質エンコーダの事前学習を行うDiffPreTアプローチを提案する。
DiffPreTはエンコーダを誘導し、結合拡散軌道に沿って摂動されたタンパク質配列と構造を回収し、配列と構造の結合分布を取得する。
必須タンパク質のコンフォメーション変化を考慮すると,シムズ拡散軌道予測(SiamDiff)と呼ばれる手法によりDiffPreTを増強し,タンパク質のコンフォメーションの異なるコンフォメーションの相関を捉える。
SiamDiffはこの目標を達成するために、構造的に相関したコンバータの拡散軌跡の表現間の相互情報を最大化する。
我々はDiffPreTとSiamDiffが原子レベルおよび残基レベルの構造に基づくタンパク質理解タスクに与える影響について検討した。
実験結果から,全タスクにおいてDiffPreTのパフォーマンスは一貫して競争力があり,SiamDiffは全タスクの平均ランクを考慮して,新たな最先端のパフォーマンスを実現していることがわかった。
実装はhttps://github.com/deepgraphlearning/siamdiffで利用可能です。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for
Efficient and Generalizable Compound-Protein Interaction Prediction [63.50967073653953]
化合物-タンパク質相互作用予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。
既存のディープラーニングベースの手法では、タンパク質配列や構造が単一のモダリティしか利用していない。
CPI予測のためのマルチスケールタンパク質配列構造コントラストフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:51:10Z) - Predicting mutational effects on protein-protein binding via a
side-chain diffusion probabilistic model [14.949807579474781]
SidechainDiffは、未ラベルな実験タンパク質構造を利用する表現学習に基づくアプローチである。
SidechainDiffは、側鎖の拡散に基づく最初の生成モデルであり、タンパク質のバックボーン構造の生成に主に焦点をあてた以前の試みと区別している。
論文 参考訳(メタデータ) (2023-10-30T15:23:42Z) - Neural Embeddings for Protein Graphs [0.8258451067861933]
幾何学ベクトル空間にタンパク質グラフを埋め込む新しい枠組みを提案する。
タンパク質グラフ間の構造的距離を保存するエンコーダ関数を学習する。
本フレームワークは,タンパク質構造分類の課題において,顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-06-07T14:50:34Z) - DiffDock-PP: Rigid Protein-Protein Docking with Diffusion Models [47.73386438748902]
DiffDock-PPは拡散生成モデルであり、非有界タンパク質構造をそれらの有界配座に翻訳し回転させる。
中央値C-RMSDが4.85でDIPSの最先端性能を達成し,すべてのベースラインを上回りました。
論文 参考訳(メタデータ) (2023-04-08T02:10:44Z) - A Systematic Study of Joint Representation Learning on Protein Sequences
and Structures [38.94729758958265]
効果的なタンパク質表現の学習は、タンパク質機能の予測のような生物学の様々なタスクにおいて重要である。
近年, タンパク質言語モデル(PLM)に基づく配列表現学習法は, 配列ベースタスクでは優れているが, タンパク質構造に関わるタスクへの直接適応は依然として困難である。
本研究は、最先端のPLMと異なる構造エンコーダを統合することで、結合タンパク質表現学習の包括的研究を行う。
論文 参考訳(メタデータ) (2023-03-11T01:24:10Z) - Protein Sequence and Structure Co-Design with Equivariant Translation [19.816174223173494]
既存のアプローチは自己回帰モデルまたは拡散モデルを用いてタンパク質配列と構造の両方を生成する。
本稿では,タンパク質配列と構造共設計が可能な新しいアプローチを提案する。
我々のモデルは、幾何学的制約と文脈特徴からの相互作用を推論する三角法を意識したエンコーダで構成されている。
全てのタンパク質アミノ酸は翻訳工程で1ショットずつ更新され、推論プロセスが大幅に加速される。
論文 参考訳(メタデータ) (2022-10-17T06:00:12Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。