論文の概要: Prot42: a Novel Family of Protein Language Models for Target-aware Protein Binder Generation
- arxiv url: http://arxiv.org/abs/2504.04453v1
- Date: Sun, 06 Apr 2025 11:43:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:15:33.681002
- Title: Prot42: a Novel Family of Protein Language Models for Target-aware Protein Binder Generation
- Title(参考訳): Prot42 : ターゲット認識型タンパク質結合生成のためのタンパク質言語モデルの新しいファミリー
- Authors: Mohammad Amaan Sayeed, Engin Tekin, Maryam Nadeem, Nancy A. ElNaker, Aahan Singh, Natalia Vassilieva, Boulbaba Ben Amor,
- Abstract要約: 本稿では,タンパク質言語モデル(pLM)の新規ファミリーであるProt42を紹介する。
注目すべきは、我々のモデルは最大8,192個のアミノ酸を処理し、標準的制限をはるかに超えていることだ。
Prot42は高親和性タンパク質結合体と配列特異的DNA結合タンパク質を産生する。
- 参考スコア(独自算出の注目度): 3.2039076408339353
- License:
- Abstract: Unlocking the next generation of biotechnology and therapeutic innovation demands overcoming the inherent complexity and resource-intensity of conventional protein engineering methods. Recent GenAI-powered computational techniques often rely on the availability of the target protein's 3D structures and specific binding sites to generate high-affinity binders, constraints exhibited by models such as AlphaProteo and RFdiffusion. In this work, we explore the use of Protein Language Models (pLMs) for high-affinity binder generation. We introduce Prot42, a novel family of Protein Language Models (pLMs) pretrained on vast amounts of unlabeled protein sequences. By capturing deep evolutionary, structural, and functional insights through an advanced auto-regressive, decoder-only architecture inspired by breakthroughs in natural language processing, Prot42 dramatically expands the capabilities of computational protein design based on language only. Remarkably, our models handle sequences up to 8,192 amino acids, significantly surpassing standard limitations and enabling precise modeling of large proteins and complex multi-domain sequences. Demonstrating powerful practical applications, Prot42 excels in generating high-affinity protein binders and sequence-specific DNA-binding proteins. Our innovative models are publicly available, offering the scientific community an efficient and precise computational toolkit for rapid protein engineering.
- Abstract(参考訳): 次世代のバイオテクノロジーと治療革新を解き放つためには、従来のタンパク質工学手法の複雑さと資源強度を克服する必要がある。
最近のGenAIによる計算技術は、AlphaProteoやRFdiffusionのようなモデルで示される制約である高親和性バインダーを生成するために、標的タンパク質の3D構造と特定の結合部位の可用性に依存することが多い。
本研究では,高親和性バインダー生成におけるタンパク質言語モデル(pLM)の利用について検討する。
本稿では,タンパク質言語モデル(pLM)の新規ファミリーであるProt42を紹介する。
Prot42は、自然言語処理のブレークスルーにインスパイアされた高度な自己回帰型デコーダのみのアーキテクチャを通じて、深い進化的、構造的、機能的な洞察を捉え、言語のみに基づく計算タンパク質設計の能力を劇的に拡張する。
注目すべきは、我々のモデルは最大8,192個のアミノ酸を処理し、標準的制限を大幅に超え、大きなタンパク質と複雑な多ドメイン配列の正確なモデリングを可能にします。
Prot42は強力な実用的な応用を実証し、高親和性タンパク質結合体と配列特異的DNA結合タンパク質を産生する。
我々の革新的なモデルは公開されており、科学コミュニティに高速タンパク質工学のための効率的かつ正確な計算ツールキットを提供する。
関連論文リスト
- Computational Protein Science in the Era of Large Language Models (LLMs) [54.35488233989787]
計算タンパク質科学(Computational protein science)は、タンパク質配列構造-機能パラダイムにおける知識を明らかにすること、および応用を開発することを目的としている。
最近、言語モデル (Language Models, PLM) は、前例のない言語処理と一般化能力のために、AIのマイルストーンとして登場した。
論文 参考訳(メタデータ) (2025-01-17T16:21:18Z) - Unifying Sequences, Structures, and Descriptions for Any-to-Any Protein Generation with the Large Multimodal Model HelixProtX [14.927425008686692]
我々は,大規模マルチモーダルモデル上に構築されたHelixProtXを導入し,タンパク質の任意のモダリティ生成をサポートする。
HelixProtXは、さまざまなタンパク質関連のタスクにおいて、常に優れた精度を達成し、既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-07-12T14:03:02Z) - Learning the Language of Protein Structure [8.364087723533537]
本稿では,タンパク質構造を離散表現に効果的にトークン化するベクトル量子化オートエンコーダを用いたアプローチを提案する。
学習した表現の有効性を示すために、コードブック上でトレーニングされた単純なGPTモデルにより、新規で多様性があり、設計可能なタンパク質構造を生成することができることを示す。
論文 参考訳(メタデータ) (2024-05-24T16:03:47Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Deep Generative Modeling for Protein Design [0.0]
ディープラーニングアプローチは、画像分類や自然言語処理などの分野で画期的な成果を上げている。
タンパク質の遺伝子モデルが開発され、既知のタンパク質配列を全て含む、特定のタンパク質ファミリーをモデル化する、または個々のタンパク質のダイナミクスを外挿する。
本稿では、タンパク質のモデリングに最も成功した5種類の生成モデルについて論じ、ガイドされたタンパク質設計のためのフレームワークを提供する。
論文 参考訳(メタデータ) (2021-08-31T14:38:26Z) - ProGen: Language Modeling for Protein Generation [47.32931317203297]
タンパク質工学のための生成モデリングは、合成生物学、医学、物質科学における根本的な問題を解決する鍵となる。
コストのかかる構造アノテーションが欠如しているタンパク質の指数関数的に増加する集合を活用するために、タンパク質工学を教師なしシーケンス生成問題として採用する。
論文 参考訳(メタデータ) (2020-03-08T04:27:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。