論文の概要: Bridge-IF: Learning Inverse Protein Folding with Markov Bridges
- arxiv url: http://arxiv.org/abs/2411.02120v1
- Date: Mon, 04 Nov 2024 14:35:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:49:01.575963
- Title: Bridge-IF: Learning Inverse Protein Folding with Markov Bridges
- Title(参考訳): Bridge-IF:Markov Bridgesを用いた逆タンパク質フォールディングの学習
- Authors: Yiheng Zhu, Jialu Wu, Qiuyi Li, Jiahuan Yan, Mingze Yin, Wei Wu, Mingyang Li, Jieping Ye, Zheng Wang, Jian Wu,
- Abstract要約: 逆タンパク質折り畳みは計算タンパク質設計の基本的な課題である。
逆折り畳みのための生成拡散ブリッジモデルであるBridge-IFを提案する。
以上の結果から,Bridge-IFは配列回復において既存のベースラインを超え,高い折りたたみ性を有する可塑性タンパク質の設計に優れることがわかった。
- 参考スコア(独自算出の注目度): 32.53142367116483
- License:
- Abstract: Inverse protein folding is a fundamental task in computational protein design, which aims to design protein sequences that fold into the desired backbone structures. While the development of machine learning algorithms for this task has seen significant success, the prevailing approaches, which predominantly employ a discriminative formulation, frequently encounter the error accumulation issue and often fail to capture the extensive variety of plausible sequences. To fill these gaps, we propose Bridge-IF, a generative diffusion bridge model for inverse folding, which is designed to learn the probabilistic dependency between the distributions of backbone structures and protein sequences. Specifically, we harness an expressive structure encoder to propose a discrete, informative prior derived from structures, and establish a Markov bridge to connect this prior with native sequences. During the inference stage, Bridge-IF progressively refines the prior sequence, culminating in a more plausible design. Moreover, we introduce a reparameterization perspective on Markov bridge models, from which we derive a simplified loss function that facilitates more effective training. We also modulate protein language models (PLMs) with structural conditions to precisely approximate the Markov bridge process, thereby significantly enhancing generation performance while maintaining parameter-efficient training. Extensive experiments on well-established benchmarks demonstrate that Bridge-IF predominantly surpasses existing baselines in sequence recovery and excels in the design of plausible proteins with high foldability. The code is available at https://github.com/violet-sto/Bridge-IF.
- Abstract(参考訳): 逆タンパク質折り畳みは計算タンパク質設計の基本的な課題であり、所望のバックボーン構造に折り畳むタンパク質配列を設計することを目的としている。
このタスクのための機械学習アルゴリズムの開発は大きな成功を収めてきたが、差別的な定式化を主に用いた一般的なアプローチは、しばしばエラー蓄積問題に遭遇し、広範囲の有望なシーケンスのキャプチャに失敗する。
これらのギャップを埋めるために、バックボーン構造とタンパク質配列の分布間の確率的依存性を学習するために、逆折り畳みのための生成拡散ブリッジモデルであるBridge-IFを提案する。
具体的には、表現型構造エンコーダを用いて、構造から派生した離散的かつ情報的な事前提案を行い、これをネイティブシーケンスに接続するマルコフ橋を確立する。
推論段階では、Bridge-IFは事前のシーケンスを徐々に洗練し、より妥当な設計に終止符を打つ。
さらに,マルコフ橋モデルの再パラメータ化の視点を導入し,より効果的な訓練を容易にする簡易な損失関数を導出する。
また、構造条件でタンパク質言語モデル(PLM)を変調し、マルコフブリッジ過程を正確に近似し、パラメータ効率の訓練を維持しながら生成性能を大幅に向上させる。
十分に確立されたベンチマーク実験により、Bridge-IFは配列回復において既存のベースラインを圧倒的に上回り、高い折りたたみ性を持つ可塑性タンパク質の設計に優れることが示された。
コードはhttps://github.com/violet-sto/Bridge-IFで公開されている。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Reinforcement learning on structure-conditioned categorical diffusion for protein inverse folding [0.0]
逆折り畳みは、複数の列が同じ構造に折り畳むことができる1対多の問題である。
RL-DIFは、逆折り畳みのカテゴリー的拡散モデルであり、シーケンス回復に基づいて事前訓練され、強化学習によって調整される。
実験の結果、RL-DIFはCATH 4.2で29%の折りたたみ可能な多様性を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-22T16:50:34Z) - Re-Dock: Towards Flexible and Realistic Molecular Docking with Diffusion
Bridge [69.80471117520719]
Re-Dockは、幾何学多様体に拡張された新しい拡散橋生成モデルである。
我々はNewton-Euler方程式にインスパイアされたエネルギー-幾何学マッピングを提案し、結合エネルギーとコンフォーメーションを共モデリングする。
アポドックやクロスドックといった設計済みのベンチマークデータセットの実験は、現在の手法よりもモデルの有効性と効率性が優れていることを示している。
論文 参考訳(メタデータ) (2024-02-18T05:04:50Z) - Protein Design with Guided Discrete Diffusion [67.06148688398677]
タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。
離散拡散モデルのためのガイダンス手法であるdiffusioN Optimized Smpling (NOS)を提案する。
NOSは、構造に基づく手法の重要な制限を回避し、シーケンス空間で直接設計を行うことができる。
論文 参考訳(メタデータ) (2023-05-31T16:31:24Z) - Inverse Protein Folding Using Deep Bayesian Optimization [18.77797005929986]
逆タンパク質の折り畳みは、タンパク質の設計の「トップダウン」において重要な問題として表面化されている。
本稿では「深み」や「ラテント空間」の最近の進歩を応用した最適化問題として、生成した逆折りたたみを改良する問題を提起する。
本手法は, TMスコアとRMSDを用いて, 目的の背骨構造に対する構造誤差を大幅に低減したタンパク質配列を連続的に生成する。
論文 参考訳(メタデータ) (2023-05-25T02:15:25Z) - AlphaFold Distillation for Protein Design [25.190210443632825]
逆タンパク質の折りたたみはバイオエンジニアリングと薬物発見に不可欠である。
AlphaFoldのような前方の折りたたみモデルは、シーケンスから構造を正確に予測することで潜在的な解決策を提供する。
本稿では, 折り畳みモデルの信頼性測定値に対する知識蒸留を用いて, より高速かつエンドツーエンドの識別可能な蒸留モデルを作成することを提案する。
論文 参考訳(メタデータ) (2022-10-05T19:43:06Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Fold2Seq: A Joint Sequence(1D)-Fold(3D) Embedding-based Generative Model
for Protein Design [70.27706384570723]
Fold2Seqは特定の標的に条件付きタンパク質配列を設計するための新しいフレームワークである。
Fold2Seqの性能は, シーケンス設計の速度, カバレッジ, 信頼性において向上したか, 同等であったかを示す。
フォールドベースのFold2Seqの独特な利点は、構造ベースのディープモデルやRosettaDesignと比較して、3つの現実世界の課題においてより明確になる。
論文 参考訳(メタデータ) (2021-06-24T14:34:24Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。