論文の概要: Structure Language Models for Protein Conformation Generation
- arxiv url: http://arxiv.org/abs/2410.18403v1
- Date: Thu, 24 Oct 2024 03:38:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:49:01.873629
- Title: Structure Language Models for Protein Conformation Generation
- Title(参考訳): タンパク質コンフォーメーション生成のための構造言語モデル
- Authors: Jiarui Lu, Xiaoyin Chen, Stephen Zhewen Lu, Chence Shi, Hongyu Guo, Yoshua Bengio, Jian Tang,
- Abstract要約: 伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。
深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。
本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
- 参考スコア(独自算出の注目度): 66.42864253026053
- License:
- Abstract: Proteins adopt multiple structural conformations to perform their diverse biological functions, and understanding these conformations is crucial for advancing drug discovery. Traditional physics-based simulation methods often struggle with sampling equilibrium conformations and are computationally expensive. Recently, deep generative models have shown promise in generating protein conformations as a more efficient alternative. However, these methods predominantly rely on the diffusion process within a 3D geometric space, which typically centers around the vicinity of metastable states and is often inefficient in terms of runtime. In this paper, we introduce Structure Language Modeling (SLM) as a novel framework for efficient protein conformation generation. Specifically, the protein structures are first encoded into a compact latent space using a discrete variational auto-encoder, followed by conditional language modeling that effectively captures sequence-specific conformation distributions. This enables a more efficient and interpretable exploration of diverse ensemble modes compared to existing methods. Based on this general framework, we instantiate SLM with various popular LM architectures as well as proposing the ESMDiff, a novel BERT-like structure language model fine-tuned from ESM3 with masked diffusion. We verify our approach in various scenarios, including the equilibrium dynamics of BPTI, conformational change pairs, and intrinsically disordered proteins. SLM provides a highly efficient solution, offering a 20-100x speedup than existing methods in generating diverse conformations, shedding light on promising avenues for future research.
- Abstract(参考訳): タンパク質は、その多様な生物学的機能を実行するために複数の構造的コンフォメーションを採用し、これらのコンフォメーションを理解することは、薬物発見を促進するために不可欠である。
従来の物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦慮し、計算コストがかかる。
近年、より効率的な代替としてタンパク質のコンホメーションの生成が期待されている。
しかしながら、これらの手法は主に3次元幾何学空間内の拡散過程に依存しており、通常は準安定状態の近傍を中心とし、しばしば実行時に非効率である。
本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして,構造言語モデリング(SLM)を紹介する。
具体的には、タンパク質構造を離散変分オートエンコーダを用いて、まずコンパクトな潜伏空間に符号化し、続いて、配列特異的なコンフォメーション分布を効果的にキャプチャする条件付き言語モデリングを行う。
これにより、既存の手法と比較して、多様なアンサンブルモードのより効率的で解釈可能な探索が可能になる。
本稿では,ESMDiffを提案するとともに,様々な人気のあるLMアーキテクチャでSLMをインスタンス化し,ESMDiffを提案する。
BPTIの平衡力学,コンフォメーション変化対,内在的に不規則なタンパク質など,様々なシナリオでアプローチを検証する。
SLMは、様々なコンフォーメーションを生成する既存の方法よりも20-100倍のスピードアップを提供し、将来の研究のための有望な道に光を当てる、非常に効率的なソリューションを提供する。
関連論文リスト
- DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - Protein Conformation Generation via Force-Guided SE(3) Diffusion Models [48.48934625235448]
新しいタンパク質コンホメーションを生成するために、深層生成モデリング技術が用いられている。
本稿では,タンパク質コンフォメーション生成のための力誘導SE(3)拡散モデルConfDiffを提案する。
論文 参考訳(メタデータ) (2024-03-21T02:44:08Z) - Diffusion on language model embeddings for protein sequence generation [0.5442686600296733]
連続拡散を利用したアミノ酸配列生成モデルであるDiMAを導入する。
優れたパフォーマンスをもたらす設計選択の影響を定量的に説明します。
我々のアプローチは、タンパク質空間の構造的および機能的多様性を正確に反映する、新規で多様なタンパク質配列を一貫して生成する。
論文 参考訳(メタデータ) (2024-03-06T14:15:20Z) - Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z) - AlphaFold Meets Flow Matching for Generating Protein Ensembles [11.1639408863378]
本研究では,タンパク質のコンフォメーション・ランドスケープを学習・サンプリングするためのフローベース生成モデリング手法を開発した。
提案手法はAlphaFoldとMSAサブサンプリングと比較して精度と多様性の組合せが優れている。
本手法は,MD軌道の再現よりも高速な壁面収束により,静的なPDB構造を多様化することができる。
論文 参考訳(メタデータ) (2024-02-07T13:44:47Z) - Ophiuchus: Scalable Modeling of Protein Structures through Hierarchical
Coarse-graining SO(3)-Equivariant Autoencoders [1.8835495377767553]
天然タンパク質の3次元ネイティブ状態は、繰り返しおよび階層的なパターンを示す。
従来のグラフに基づくタンパク質構造のモデリングは、単一の微細な解像度でしか動作しないことが多い。
オフィチュス(Ophiuchus)は、全原子タンパク質構造を効率的に操作するSO(3)等価な粗粒化モデルである。
論文 参考訳(メタデータ) (2023-10-04T01:01:11Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。