論文の概要: Generative Pretrained Autoregressive Transformer Graph Neural Network
applied to the Analysis and Discovery of Novel Proteins
- arxiv url: http://arxiv.org/abs/2305.04934v2
- Date: Tue, 11 Jul 2023 12:41:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 18:30:41.578382
- Title: Generative Pretrained Autoregressive Transformer Graph Neural Network
applied to the Analysis and Discovery of Novel Proteins
- Title(参考訳): 生成事前学習された自己回帰トランスフォーマグラフニューラルネットワークによる新規タンパク質の解析と発見
- Authors: Markus J. Buehler
- Abstract要約: 本稿では,タンパク質モデリングにおける複雑な前方および逆問題を解決するために,フレキシブル言語モデルに基づくディープラーニング戦略を適用した。
本モデルを用いて, 二次構造含量(残量レベル, 全体含量), タンパク質溶解度, シークエンシングタスクの予測を行った。
追加タスクを追加することで、モデルが全体的なパフォーマンスを改善するために活用する創発的なシナジーが得られることが分かりました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We report a flexible language-model based deep learning strategy, applied
here to solve complex forward and inverse problems in protein modeling, based
on an attention neural network that integrates transformer and graph
convolutional architectures in a causal multi-headed graph mechanism, to
realize a generative pretrained model. The model is applied to predict
secondary structure content (per-residue level and overall content), protein
solubility, and sequencing tasks. Further trained on inverse tasks, the model
is rendered capable of designing proteins with these properties as target
features. The model is formulated as a general framework, completely
prompt-based, and can be adapted for a variety of downstream tasks. We find
that adding additional tasks yields emergent synergies that the model exploits
in improving overall performance, beyond what would be possible by training a
model on each dataset alone. Case studies are presented to validate the method,
yielding protein designs specifically focused on structural proteins, but also
exploring the applicability in the design of soluble, antimicrobial
biomaterials. While our model is trained to ultimately perform 8 distinct
tasks, with available datasets it can be extended to solve additional problems.
In a broader sense, this work illustrates a form of multiscale modeling that
relates a set of ultimate building blocks (here, byte-level utf8 characters
that define the nature of the physical system at hand) to complex output. This
materiomic scheme captures complex emergent relationships between universal
building block and resulting properties via a synergizing learning capacity to
express a set of potentialities embedded in the knowledge used in training, via
the interplay of universality and diversity.
- Abstract(参考訳): 本稿では,トランスフォーマーとグラフ畳み込みアーキテクチャを因果的多頭グラフ機構に統合した注意ニューラルネットワークを基盤として,タンパク質モデリングにおける複雑な前方および逆問題を解くために適用した,柔軟な言語モデルに基づくディープラーニング戦略を報告する。
本モデルを用いて, 二次構造含量(残量レベル, 全体含量), タンパク質溶解度, シークエンシングタスクを予測する。
逆タスクでさらに訓練されたモデルでは、これらの特性を標的としてタンパク質を設計することができる。
このモデルは汎用フレームワークとして定式化されており、完全にプロンプトベースであり、様々な下流タスクに適応することができる。
追加のタスクを追加することで、モデルが全体的なパフォーマンス改善に利用する創発的なシナジーが得られることが分かりました。
ケーススタディは、構造タンパク質に特異的に焦点をあてたタンパク質設計と、可溶性抗菌性生体材料の設計への適用性について検証する。
私たちのモデルは最終的に8つの異なるタスクを実行するように訓練されていますが、利用可能なデータセットでは、追加の問題を解決するために拡張することができます。
より広い意味では、この研究は、一連の究極のビルディングブロック(手元にある物理系の性質を定義するバイトレベルのutf8文字)を複雑な出力に関連付けるマルチスケールモデリングの形式を描いている。
この体系は、普遍的なビルディングブロックと結果として生じる性質の間の複雑な創発的な関係を相乗学習能力を通じて捉え、普遍性と多様性の相互作用を通じて、訓練で使われる知識に埋め込まれた一連の可能性を表現する。
関連論文リスト
- CBGBench: Fill in the Blank of Protein-Molecule Complex Binding Graph [66.11279161533619]
CBGBenchは構造ベースドラッグデザイン(SBDD)のベンチマークである
既存のメソッドを属性に基づいて分類することで、CBGBenchは様々な最先端メソッドを実装している。
我々は,これらのモデルを薬物設計に不可欠なタスクに適応させてきた。
論文 参考訳(メタデータ) (2024-06-16T08:20:24Z) - X-LoRA: Mixture of Low-Rank Adapter Experts, a Flexible Framework for Large Language Models with Applications in Protein Mechanics and Molecular Design [0.0]
低ランク適応(LoRA)に基づくディープ・レイヤ・ワイド・トークン・レベル・アプローチを用いて、微調整された大規模言語モデルを作成するための専門家戦略の混合を報告する。
このデザインは、ニューラルネットワーク構築ブロックをさまざまな階層的な表現で再利用する、普遍性と多様性の生物学的原則にインスパイアされている。
我々は, バイオマテリアル分析, タンパク質力学, 設計に焦点をあてた, フォワード/逆解析タスク, 推論能力の強化など, 科学的能力を提供するX-LoRAモデルを開発した。
論文 参考訳(メタデータ) (2024-02-11T10:23:34Z) - ProtAgents: Protein discovery via large language model multi-agent
collaborations combining physics and machine learning [0.0]
ProtAgentsは、Large Language Models (LLMs)に基づいたde novoタンパク質設計のためのプラットフォームである。
異なる機能を持つ複数のAIエージェントは、動的環境内の複雑なタスクを協調的に処理する。
エージェントを設計する柔軟性と、動的LLMベースのマルチエージェント環境による自律的なコラボレーション能力は、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-01-27T20:19:49Z) - Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。
PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。
PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-01-26T12:47:54Z) - Target-aware Variational Auto-encoders for Ligand Generation with
Multimodal Protein Representation Learning [2.01243755755303]
ターゲット認識型自動エンコーダであるTargetVAEを導入し、任意のタンパク質標的に対する高い結合親和性で生成する。
これは、タンパク質の異なる表現を単一のモデルに統一する最初の試みであり、これは我々がタンパク質マルチモーダルネットワーク(PMN)と呼ぶ。
論文 参考訳(メタデータ) (2023-08-02T12:08:17Z) - Integration of Pre-trained Protein Language Models into Geometric Deep
Learning Networks [68.90692290665648]
我々は、タンパク質言語モデルから学んだ知識を、いくつかの最先端の幾何学的ネットワークに統合する。
以上の結果から,ベースラインを20%上回る総合的な改善が見られた。
強い証拠は、タンパク質言語モデルの知識を取り入れることで、幾何学的ネットワークの能力が著しく向上することを示している。
論文 参考訳(メタデータ) (2022-12-07T04:04:04Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Learning multi-scale functional representations of proteins from
single-cell microscopy data [77.34726150561087]
局所化分類に基づいて訓練された単純な畳み込みネットワークは、多様な機能情報をカプセル化したタンパク質表現を学習できることを示す。
また,生物機能の異なるスケールでタンパク質表現の質を評価するためのロバストな評価戦略を提案する。
論文 参考訳(メタデータ) (2022-05-24T00:00:07Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Multi-Scale Representation Learning on Proteins [78.31410227443102]
本稿では,タンパク質HoloProtのマルチスケールグラフ構築について紹介する。
表面はタンパク質の粗い詳細を捉え、配列は一次成分であり、構造はより微細な詳細を捉えている。
グラフエンコーダは、各レベルが下のレベル(s)からそのレベルでのグラフとエンコーディングを統合することで、マルチスケール表現を学習する。
論文 参考訳(メタデータ) (2022-04-04T08:29:17Z) - Incorporating network based protein complex discovery into automated
model construction [6.587739898387445]
本稿では, 知識を取り入れた癌表現型ネットワークの遺伝子発現解析手法を提案する。
計算グラフの構造的構造は、タンパク質-タンパク質ネットワーク上のトポロジ的クラスタリングアルゴリズムを用いて決定される。
論文 参考訳(メタデータ) (2020-09-29T18:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。