論文の概要: Physics-Inspired Protein Encoder Pre-Training via Siamese
Sequence-Structure Diffusion Trajectory Prediction
- arxiv url: http://arxiv.org/abs/2301.12068v1
- Date: Sat, 28 Jan 2023 02:48:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 19:14:16.437308
- Title: Physics-Inspired Protein Encoder Pre-Training via Siamese
Sequence-Structure Diffusion Trajectory Prediction
- Title(参考訳): シームス配列構造拡散軌道予測による物理誘起タンパク質エンコーダの事前学習
- Authors: Zuobai Zhang, Minghao Xu, Aur\'elie Lozano, Vijil Chenthamarakshan,
Payel Das, Jian Tang
- Abstract要約: 配列構造多モード拡散モデリングによるタンパク質エンコーダの事前学習のためのDiffPreT手法を提案する。
必須タンパク質コンフォメーションの変化を考慮すると、Siamese Diffusion Trajectory Prediction (SiamDiff) と呼ばれる物理に着想を得たDiffPreTを強化する。
我々はDiffPreTとSiamDiffが原子レベルおよび残基レベルの構造に基づくタンパク質理解タスクに与える影響について検討した。
- 参考スコア(独自算出の注目度): 29.375830561817047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training methods on proteins are recently gaining interest, leveraging
either protein sequences or structures, while modeling their joint energy
landscape is largely unexplored. In this work, inspired by the success of
denoising diffusion models, we propose the DiffPreT approach to pre-train a
protein encoder by sequence-structure multimodal diffusion modeling. DiffPreT
guides the encoder to recover the native protein sequences and structures from
the perturbed ones along the multimodal diffusion trajectory, which acquires
the joint distribution of sequences and structures. Considering the essential
protein conformational variations, we enhance DiffPreT by a physics-inspired
method called Siamese Diffusion Trajectory Prediction (SiamDiff) to capture the
correlation between different conformers of a protein. SiamDiff attains this
goal by maximizing the mutual information between representations of diffusion
trajectories of structurally-correlated conformers. We study the effectiveness
of DiffPreT and SiamDiff on both atom- and residue-level structure-based
protein understanding tasks. Experimental results show that the performance of
DiffPreT is consistently competitive on all tasks, and SiamDiff achieves new
state-of-the-art performance, considering the mean ranks on all tasks. The
source code will be released upon acceptance.
- Abstract(参考訳): タンパク質の事前学習法は近年関心を集めており、タンパク質の配列や構造を利用している。
そこで本研究では, タンパク質エンコーダをプレトレーニングするDiffPreTアプローチを, 配列構造多モード拡散モデルにより提案する。
DiffPreTはエンコーダを誘導し、配列と構造の結合分布を取得する多モーダル拡散軌道に沿って摂動されたタンパク質配列と構造を復元する。
必須タンパク質のコンフォメーション変化を考慮すると,シムズ拡散軌道予測(SiamDiff)と呼ばれる物理に着想を得たDiffPreTを増強し,タンパク質のコンフォメーションの異なるコンフォメーション間の相関を捉える。
SiamDiffはこの目標を達成するために、構造的に相関したコンバータの拡散軌跡の表現間の相互情報を最大化する。
DiffPreTとSiamDiffが原子レベルおよび残基レベルの構造に基づくタンパク質理解タスクに与える影響について検討した。
実験結果から,全タスクにおいてDiffPreTのパフォーマンスは一貫して競争力があり,SiamDiffは全タスクの平均ランクを考慮して,新たな最先端のパフォーマンスを実現していることがわかった。
ソースコードは受理後に公開される。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for
Efficient and Generalizable Compound-Protein Interaction Prediction [63.50967073653953]
化合物-タンパク質相互作用予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。
既存のディープラーニングベースの手法では、タンパク質配列や構造が単一のモダリティしか利用していない。
CPI予測のためのマルチスケールタンパク質配列構造コントラストフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:51:10Z) - Predicting mutational effects on protein-protein binding via a
side-chain diffusion probabilistic model [14.949807579474781]
SidechainDiffは、未ラベルな実験タンパク質構造を利用する表現学習に基づくアプローチである。
SidechainDiffは、側鎖の拡散に基づく最初の生成モデルであり、タンパク質のバックボーン構造の生成に主に焦点をあてた以前の試みと区別している。
論文 参考訳(メタデータ) (2023-10-30T15:23:42Z) - Neural Embeddings for Protein Graphs [0.8258451067861933]
幾何学ベクトル空間にタンパク質グラフを埋め込む新しい枠組みを提案する。
タンパク質グラフ間の構造的距離を保存するエンコーダ関数を学習する。
本フレームワークは,タンパク質構造分類の課題において,顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-06-07T14:50:34Z) - DiffDock-PP: Rigid Protein-Protein Docking with Diffusion Models [47.73386438748902]
DiffDock-PPは拡散生成モデルであり、非有界タンパク質構造をそれらの有界配座に翻訳し回転させる。
中央値C-RMSDが4.85でDIPSの最先端性能を達成し,すべてのベースラインを上回りました。
論文 参考訳(メタデータ) (2023-04-08T02:10:44Z) - A Systematic Study of Joint Representation Learning on Protein Sequences
and Structures [38.94729758958265]
効果的なタンパク質表現の学習は、タンパク質機能の予測のような生物学の様々なタスクにおいて重要である。
近年, タンパク質言語モデル(PLM)に基づく配列表現学習法は, 配列ベースタスクでは優れているが, タンパク質構造に関わるタスクへの直接適応は依然として困難である。
本研究は、最先端のPLMと異なる構造エンコーダを統合することで、結合タンパク質表現学習の包括的研究を行う。
論文 参考訳(メタデータ) (2023-03-11T01:24:10Z) - Protein Sequence and Structure Co-Design with Equivariant Translation [19.816174223173494]
既存のアプローチは自己回帰モデルまたは拡散モデルを用いてタンパク質配列と構造の両方を生成する。
本稿では,タンパク質配列と構造共設計が可能な新しいアプローチを提案する。
我々のモデルは、幾何学的制約と文脈特徴からの相互作用を推論する三角法を意識したエンコーダで構成されている。
全てのタンパク質アミノ酸は翻訳工程で1ショットずつ更新され、推論プロセスが大幅に加速される。
論文 参考訳(メタデータ) (2022-10-17T06:00:12Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。