論文の概要: ESM All-Atom: Multi-scale Protein Language Model for Unified Molecular Modeling
- arxiv url: http://arxiv.org/abs/2403.12995v3
- Date: Fri, 31 May 2024 07:28:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 19:33:06.345001
- Title: ESM All-Atom: Multi-scale Protein Language Model for Unified Molecular Modeling
- Title(参考訳): ESMオール原子:統一分子モデリングのためのマルチスケールタンパク質言語モデル
- Authors: Kangjie Zheng, Siyu Long, Tianyu Lu, Junwei Yang, Xinyu Dai, Ming Zhang, Zaiqing Nie, Wei-Ying Ma, Hao Zhou,
- Abstract要約: ESM-AA(ESM All-Atom)は原子スケールと残基スケールの統一分子モデリングを可能にする新しいアプローチである。
実験結果から,ESM-AAはタンパク質分子タスクの従来の手法を超越していることが示唆された。
- 参考スコア(独自算出の注目度): 32.656601823957345
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Protein language models have demonstrated significant potential in the field of protein engineering. However, current protein language models primarily operate at the residue scale, which limits their ability to provide information at the atom level. This limitation prevents us from fully exploiting the capabilities of protein language models for applications involving both proteins and small molecules. In this paper, we propose ESM-AA (ESM All-Atom), a novel approach that enables atom-scale and residue-scale unified molecular modeling. ESM-AA achieves this by pre-training on multi-scale code-switch protein sequences and utilizing a multi-scale position encoding to capture relationships among residues and atoms. Experimental results indicate that ESM-AA surpasses previous methods in protein-molecule tasks, demonstrating the full utilization of protein language models. Further investigations reveal that through unified molecular modeling, ESM-AA not only gains molecular knowledge but also retains its understanding of proteins. The source codes of ESM-AA are publicly released at https://github.com/zhengkangjie/ESM-AA.
- Abstract(参考訳): タンパク質言語モデルは、タンパク質工学の分野で大きな可能性を証明している。
しかしながら、現在のタンパク質言語モデルは、主に残基スケールで機能し、原子レベルで情報を提供する能力を制限する。
この制限により、タンパク質と小分子の両方の応用のために、タンパク質言語モデルの能力を十分に活用することができません。
本稿では,ESM-AA(ESM All-Atom)を提案する。
ESM-AAは、マルチスケールのコードスウィッチタンパク質配列を事前訓練し、マルチスケールの位置符号化を利用して、残基と原子間の関係を捉えることでこれを達成している。
実験の結果,ESM-AAはタンパク質分子タスクにおける従来の手法を超越し,タンパク質言語モデルの完全活用を実証した。
さらなる研究により、ESM-AAは分子の知識を得るだけでなく、タンパク質の理解も維持していることが明らかとなった。
ESM-AAのソースコードはhttps://github.com/zhengkangjie/ESM-AAで公開されている。
関連論文リスト
- Advanced atom-level representations for protein flexibility prediction utilizing graph neural networks [0.0]
我々は,タンパク質の原子レベルでの表現を学習し,タンパク質3D構造からB因子を予測するグラフニューラルネットワーク(GNN)を提案する。
Meta-GNNモデルは、4k以上のタンパク質の大規模かつ多様なテストセット上での相関係数0.71を達成する。
論文 参考訳(メタデータ) (2024-08-22T16:15:13Z) - Beyond ESM2: Graph-Enhanced Protein Sequence Modeling with Efficient Clustering [24.415612744612773]
タンパク質は生命の過程に必須であり、進化と多様性を支えている。
シークエンシング技術の進歩により数百万のタンパク質が明らかにされ、生物学的分析とAI開発のための高度な事前学習されたタンパク質モデルの必要性が強調されている。
FacebookのESM2は、これまでで最も先進的なタンパク質言語モデルであり、教師なし学習にマスク付き予測タスクを活用し、顕著な生化学的精度でアミノ酸表現を作成する。
しかし、機能的なタンパク質の洞察の提供に欠けており、表現の質を高める機会を示唆している。
本研究は,タンパク質ファミリー分類をESM2のトレーニングに組み込むことにより,このギャップに対処する。
論文 参考訳(メタデータ) (2024-04-24T11:09:43Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - FREED++: Improving RL Agents for Fragment-Based Molecule Generation by
Thorough Reproduction [33.57089414199478]
強化学習(Reinforcement Learning, RL)はドッキングスコア(DS)を報奨として分子を生成するための有望なアプローチとして登場した。
我々はFREED(arXiv:2110.01219)と呼ばれる分子生成の最近のモデルを再現し、精査し、改善する
論文 参考訳(メタデータ) (2024-01-18T09:54:19Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Atom-by-atom protein generation and beyond with language models [2.2765901220053606]
化学言語モデルでは、標準遺伝子コードに制約のないタンパク質生成を可能にするタンパク質の原子レベルの表現を学習できることが示されている。
言語モデルは、タンパク質空間を越えて、不自然なアミノ酸を形成する修飾側鎖を持つタンパク質を生成することができることを実証する。
論文 参考訳(メタデータ) (2023-08-16T17:56:17Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - ProtFIM: Fill-in-Middle Protein Sequence Design via Protein Language
Models [0.0]
現実世界のタンパク質工学では、タンパク質配列の中央にあるアミノ酸が他の残基を維持しながら最適化されることが多い。
タンパク質言語モデル(pLM)はタンパク質配列設計のための有望なツールである。
ProtFIMとよばれる中間変換によって訓練された言語モデルは、タンパク質工学により適していることを示す。
論文 参考訳(メタデータ) (2023-03-29T04:35:50Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。