論文の概要: Guide your favorite protein sequence generative model
- arxiv url: http://arxiv.org/abs/2505.04823v1
- Date: Wed, 07 May 2025 21:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.685324
- Title: Guide your favorite protein sequence generative model
- Title(参考訳): お気に入りのタンパク質配列生成モデルをガイドする
- Authors: Junhao Xiong, Hunter Nisonoff, Ishan Gaur, Jennifer Listgarten,
- Abstract要約: 本稿では,補助情報をプラグ・アンド・プレイ方式で条件付けるための基本的フレームワークであるProteinGuideについて述べる。
本稿では, タンパク質生成モデルであるプロテインMPNNとESM3の2つを誘導し, アミノ酸および構造トークン配列を生成する手法の適用性を示す。
- 参考スコア(独自算出の注目度): 1.8999296421549166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative machine learning models have begun to transform protein engineering, yet no principled framework for conditioning on auxiliary information in a plug-and-play manner exists; one may want to iteratively incorporate experimental feedback, or make use of an existing classifier -- such as for predicting enzyme commission number -- in order to guide the sampling of the generative model to generate sequences with desired properties. Herein, we present ProteinGuide, a rigorous and general framework to achieve just that: through unifying a broad class of protein generative models that includes masked language, (order-agnostic) autoregressive, diffusion and flow-matching models, we provide an approach to statistically condition pre-trained protein generative models. We demonstrate applicability of our approach by guiding each of two commonly used protein generative models, ProteinMPNN and ESM3, to generate amino acid and structure token sequences conditioned on several user-specified properties, namely, enhanced stability and CATH-labeled fold generation.
- Abstract(参考訳): 生成機械学習モデルは、タンパク質工学を変革し始めているが、プラグアンドプレイ方式で補助情報を条件付けするための原則化されたフレームワークは存在しない。
マスク付き言語、(順序に依存しない)自己回帰モデル、拡散モデル、フローマッチングモデルを含む、幅広い種類のタンパク質生成モデルを統合することにより、統計的に訓練済みのタンパク質生成モデルを構築するためのアプローチを提供する。
本稿では, タンパク質生成モデルであるProteinMPNNとESM3のそれぞれを用いて, アミノ酸および構造トークン配列を生成し, 安定性の向上とCATH標識折りたたみ生成を図った。
関連論文リスト
- Proteina: Scaling Flow-based Protein Structure Generative Models [36.49892014289605]
proteinaは大規模フローベースのタンパク質バックボーンジェネレータで、コンディショニングに階層的な折りたたみラベルを頼っている。
タンパク質は、デノボタンパク質のバックボーン設計における最先端のパフォーマンスを達成し、前例のない長さで最大800個の残基を生産する。
論文 参考訳(メタデータ) (2025-03-02T03:21:49Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Diffusion on language model encodings for protein sequence generation [0.5182791771937247]
本稿では,タンパク質言語モデル表現で動作する潜在拡散フレームワークであるDiMAを提案する。
私たちのフレームワークは、新しい、高品質で多様なタンパク質配列を一貫して生成します。
これは、タンパク質ファミリーの生成、モチーフの足場と埋め込み、折りたたみ特異的な配列設計を含む条件付き生成タスクをサポートする。
論文 参考訳(メタデータ) (2024-03-06T14:15:20Z) - Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Protein Sequence and Structure Co-Design with Equivariant Translation [19.816174223173494]
既存のアプローチは自己回帰モデルまたは拡散モデルを用いてタンパク質配列と構造の両方を生成する。
本稿では,タンパク質配列と構造共設計が可能な新しいアプローチを提案する。
我々のモデルは、幾何学的制約と文脈特徴からの相互作用を推論する三角法を意識したエンコーダで構成されている。
全てのタンパク質アミノ酸は翻訳工程で1ショットずつ更新され、推論プロセスが大幅に加速される。
論文 参考訳(メタデータ) (2022-10-17T06:00:12Z) - Protein Structure and Sequence Generation with Equivariant Denoising
Diffusion Probabilistic Models [3.5450828190071646]
バイオエンジニアリングにおける重要な課題は、特定の3D構造と標的機能を可能にする化学的性質を持つタンパク質を設計することである。
タンパク質の構造と配列の両方の生成モデルを導入し、従来の分子生成モデルよりもはるかに大きなスケールで操作できる。
論文 参考訳(メタデータ) (2022-05-26T16:10:09Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Few Shot Protein Generation [4.7210697296108926]
マルチシークエンスアライメント(MSA)で表されるタンパク質ファミリーに条件付けられたタンパク質配列の生成モデルであるMSA-to-タンパク質トランスフォーマーについて述べる。
タンパク質ファミリーの生成モデルを学習するための既存のアプローチとは異なり、MSA-to-タンパク質トランスフォーマー条件は、多重配列アライメントの学習エンコーディングを直接生成する。
我々の生成的アプローチは、エピスタシスとインデルを正確にモデル化し、他のアプローチとは異なり、正確な推論と効率的なサンプリングを可能にします。
論文 参考訳(メタデータ) (2022-04-03T22:14:02Z) - ProGen: Language Modeling for Protein Generation [47.32931317203297]
タンパク質工学のための生成モデリングは、合成生物学、医学、物質科学における根本的な問題を解決する鍵となる。
コストのかかる構造アノテーションが欠如しているタンパク質の指数関数的に増加する集合を活用するために、タンパク質工学を教師なしシーケンス生成問題として採用する。
論文 参考訳(メタデータ) (2020-03-08T04:27:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。