論文の概要: Atom-by-atom protein generation and beyond with language models
- arxiv url: http://arxiv.org/abs/2308.09482v1
- Date: Wed, 16 Aug 2023 17:56:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 13:29:30.495078
- Title: Atom-by-atom protein generation and beyond with language models
- Title(参考訳): Atom-by-atomタンパク質生成と言語モデル
- Authors: Daniel Flam-Shepherd, Kevin Zhu and Al\'an Aspuru-Guzik
- Abstract要約: 化学言語モデルでは、標準遺伝子コードに制約のないタンパク質生成を可能にするタンパク質の原子レベルの表現を学習できることが示されている。
言語モデルは、タンパク質空間を越えて、不自然なアミノ酸を形成する修飾側鎖を持つタンパク質を生成することができることを実証する。
- 参考スコア(独自算出の注目度): 2.2765901220053606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein language models learn powerful representations directly from
sequences of amino acids. However, they are constrained to generate proteins
with only the set of amino acids represented in their vocabulary. In contrast,
chemical language models learn atom-level representations of smaller molecules
that include every atom, bond, and ring. In this work, we show that chemical
language models can learn atom-level representations of proteins enabling
protein generation unconstrained to the standard genetic code and far beyond
it. In doing so, we show that language models can generate entire proteins atom
by atom -- effectively learning the multiple hierarchical layers of molecular
information that define proteins from their primary sequence to their
secondary, and tertiary structure. We demonstrate language models are able to
explore beyond protein space -- generating proteins with modified sidechains
that form unnatural amino acids. Even further, we find that language models can
explore chemical space and protein space simultaneously and generate novel
examples of protein-drug conjugates. The results demonstrate the potential for
biomolecular design at the atom level using language models.
- Abstract(参考訳): タンパク質言語モデルはアミノ酸の配列から直接強力な表現を学ぶ。
しかし、それらはその語彙で表されるアミノ酸の組のみを持つタンパク質の生成に制限されている。
対照的に、化学言語モデルは全ての原子、結合、環を含むより小さな分子の原子レベルの表現を学ぶ。
本研究では, 化学言語モデルを用いて, 標準遺伝子コードに拘束されないタンパク質生成を可能にするタンパク質の原子レベルの表現を学習できることを示す。
その過程で、言語モデルが原子単位でタンパク質全体を生成できることを示し、その一次配列から二次構造、三次構造までタンパク質を定義する分子情報の複数の階層層を効果的に学習する。言語モデルがタンパク質空間を超えて探索できることを実証する。不自然なアミノ酸を形成する側鎖が修飾されたタンパク質を生成する。
さらに、言語モデルでは、化学空間とタンパク質空間を同時に探索し、タンパク質ドラッグ共役体の新しい例を生成することができる。
その結果, 言語モデルを用いた生体分子設計の可能性を示した。
関連論文リスト
- MolMetaLM: a Physicochemical Knowledge-Guided Molecular Meta Language Model [19.458584012046646]
本稿では,分子メタ言語フレームワーク MolMetaLM を提案する。
我々は、同じS(分子)を共有する複数のS,P,O>知識トリプルとしてフォーマットされた分子特化メタ言語パラダイムを設計する。
異なる分子知識とノイズを導入することで、メタ言語パラダイムは数万の事前学習タスクを生成する。
論文 参考訳(メタデータ) (2024-11-23T09:27:38Z) - Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - ESM All-Atom: Multi-scale Protein Language Model for Unified Molecular Modeling [32.656601823957345]
ESM-AA(ESM All-Atom)は原子スケールと残基スケールの統一分子モデリングを可能にする新しいアプローチである。
実験結果から,ESM-AAはタンパク質分子タスクの従来の手法を超越していることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T13:35:41Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - Interactive Molecular Discovery with Natural Language [69.89287960545903]
対象分子を記述・編集するための自然言語を用いた対話型分子設計を提案する。
この課題をより良くするために、実験プロパティ情報を注入することによって強化された知識的で汎用的な生成事前学習モデルChatMolを設計する。
論文 参考訳(メタデータ) (2023-06-21T02:05:48Z) - Language models can generate molecules, materials, and protein binding
sites directly in three dimensions as XYZ, CIF, and PDB files [0.0]
言語モデルは分子設計の強力なツールである。
言語モデルが3次元の新規かつ有効な構造を生成する方法を示す。
化学ファイルシーケンスで訓練されているにもかかわらず、言語モデルは最先端のモデルに匹敵するパフォーマンスを保っている。
論文 参考訳(メタデータ) (2023-05-09T18:35:38Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - DiffBP: Generative Diffusion of 3D Molecules for Target Protein Binding [51.970607704953096]
従来の研究は通常、原子の要素タイプと3次元座標を1つずつ生成する自己回帰的な方法で原子を生成する。
現実世界の分子系では、分子全体の原子間の相互作用が大域的であり、原子間のエネルギー関数が結合する。
本研究では、標的タンパク質に基づく分子3次元構造の生成拡散モデルを構築し、非自己回帰的に全原子レベルで構築する。
論文 参考訳(メタデータ) (2022-11-21T07:02:15Z) - Molecular dynamics without molecules: searching the conformational space
of proteins with generative neural networks [0.0]
全原子および粗粒分子動力学はタンパク質のコンフォメーション状態の研究に広く用いられている。
全ての原子と粗粒のシミュレーション手法は、スーパーコンピュータの資源にアクセスできなければ、これらの状態が検出可能な時間と長さのスケールが達成できないという事実に悩まされる。
1つの選択肢は、分子動力学の原子軌道を物理粒子の短期バージョンとして符号化し、人工知能ベクトルを用いて符号化された軌道を伝播させることである。
論文 参考訳(メタデータ) (2022-06-09T02:06:43Z) - Learning Latent Space Energy-Based Prior Model for Molecule Generation [59.875533935578375]
分子モデリングのためのSMILES表現を用いた潜時空間エネルギーに基づく先行モデルについて学習する。
本手法は,最先端モデルと競合する妥当性と特異性を持つ分子を生成することができる。
論文 参考訳(メタデータ) (2020-10-19T09:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。