Fugu-MT 論文翻訳(概要): Conditional Enzyme Generation Using Protein Language Models with Adapters

論文の概要: Conditional Enzyme Generation Using Protein Language Models with Adapters

arxiv url: http://arxiv.org/abs/2410.03634v1
Date: Fri, 4 Oct 2024 17:41:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 20:58:02.735906
Title: Conditional Enzyme Generation Using Protein Language Models with Adapters
Title（参考訳）: 適応型タンパク質言語モデルを用いた条件酵素生成
Authors: Jason Yang, Aadyot Bhatnagar, Jeffrey A. Ruffolo, Ali Madani,
Abstract要約: ProCALMは、タンパク質言語モデルへのアダプタを用いたタンパク質の条件生成のためのアプローチである。 ProCALMの具体的実装は、酵素機能と分類の条件付け表現を組み込むためにProGen2を微調整することを含む。
参考スコア（独自算出の注目度）: 2.054090599961347
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The conditional generation of proteins with desired functions and/or properties is a key goal for generative models. Existing methods based on prompting of language models can generate proteins conditioned on a target functionality, such as a desired enzyme family. However, these methods are limited to simple, tokenized conditioning and have not been shown to generalize to unseen functions. In this study, we propose ProCALM (Protein Conditionally Adapted Language Model), an approach for the conditional generation of proteins using adapters to protein language models. Our specific implementation of ProCALM involves finetuning ProGen2 to incorporate conditioning representations of enzyme function and taxonomy. ProCALM matches existing methods at conditionally generating sequences from target enzyme families. Impressively, it can also generate within the joint distribution of enzymatic function and taxonomy, and it can generalize to rare and unseen enzyme families and taxonomies. Overall, ProCALM is a flexible and computationally efficient approach, and we expect that it can be extended to a wide range of generative language models.
Abstract（参考訳）: 所望の機能および/または性質を持つタンパク質の条件付き生成は、生成モデルの重要な目標である。言語モデルのプロンプトに基づく既存の方法は、所望の酵素ファミリーのような標的機能で条件付けられたタンパク質を生成することができる。しかし、これらの手法は単純でトークン化された条件付けに限定されており、目に見えない関数に一般化することが示されていない。本研究では,タンパク質言語モデルに対するアダプタを用いた条件付きタンパク質生成手法である ProCALM (Protein Conditionally Adapted Language Model) を提案する。 ProCALMの具体的実装は、酵素機能と分類の条件付け表現を組み込むためにProGen2を微調整することを含む。 ProCALMは、標的酵素ファミリーから条件付き配列を生成する既存の方法と一致している。印象的なことに、酵素機能と分類学の合同分布内でも生成でき、希少で目に見えない酵素ファミリーや分類学に一般化することができる。全体として, ProCALMはフレキシブルかつ計算効率のよいアプローチであり, 幅広い生成言語モデルに拡張できることを期待する。

関連論文リスト

CFP-Gen: Combinatorial Functional Protein Generation via Diffusion Language Models [16.17372298740389]
CFP-Gen(CFP-Gen)は、結合型タンパク質遺伝子のための新しい拡散言語モデルである。マルチモーダル条件を機能的、シーケンス的、構造的制約と統合することにより、de novoタンパク質の設計を可能にする。
論文参考訳（メタデータ） (2025-05-28T21:05:46Z)
Structure Language Models for Protein Conformation Generation [66.42864253026053]
伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
論文参考訳（メタデータ） (2024-10-24T03:38:51Z)
VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文参考訳（メタデータ） (2024-05-13T20:15:03Z)
Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文参考訳（メタデータ） (2024-02-28T18:57:56Z)
ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。 ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文参考訳（メタデータ） (2024-02-28T01:29:55Z)
Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。 PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。 PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文参考訳（メタデータ） (2024-01-26T12:47:54Z)
xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。 xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文参考訳（メタデータ） (2024-01-11T15:03:17Z)
FiLM: Fill-in Language Models for Any-Order Generation [71.42044325886194]
Fill-in Language Model (FiLM) は、特定の生成順序に固執することなく任意の位置で柔軟な生成を可能にする新しい言語モデリング手法である。推論中、FiLMは欠落したフレーズ、文、段落をシームレスに挿入できる。 FiLMは、再構成されたテキストセグメントでトレーニングされた左から右への言語モデルに依存する既存のインフィル手法よりも優れています。
論文参考訳（メタデータ） (2023-10-15T19:37:39Z)
Prot2Text: Multimodal Protein's Function Generation with GNNs and Transformers [18.498779242323582]
本稿では,タンパク質の機能を自由テキスト形式で予測する新しいアプローチであるProt2Textを提案する。エンコーダ・デコーダフレームワークでグラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を組み合わせることにより,本モデルは多種多様なデータ型を効果的に統合する。
論文参考訳（メタデータ） (2023-07-25T09:35:43Z)
PoET: A generative model of protein families as sequences-of-sequences [5.05828899601167]
本稿では,関連タンパク質の集合を配列配列として生成する過程を学習するタンパク質ファミリー全体の生成モデルを提案する。 PoETは検索拡張言語モデルとして使用することができ、任意のタンパク質ファミリーに設定された任意の変更を生成し、スコア付けすることができる。以上の結果から,PoETはタンパク質言語モデルと進化的配列モデルに優れており,全ての深さのタンパク質をまたいだ変異関数の予測が可能であることがわかった。
論文参考訳（メタデータ） (2023-06-09T16:06:36Z)
A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文参考訳（メタデータ） (2023-05-06T19:10:19Z)
Unsupervised language models for disease variant prediction [3.6942566104432886]
広い配列のデータセットで訓練された1つのタンパク質LMは、あらゆる遺伝子変異ゼロショットに対して病原性を評価することができる。臨床的にラベル付けされた疾患関連遺伝子の変異について評価すると,その評価性能は最先端技術に匹敵することがわかった。
論文参考訳（メタデータ） (2022-12-07T22:28:13Z)
HelixFold-Single: MSA-free Protein Structure Prediction by Using Protein Language Model as an Alternative [61.984700682903096]
HelixFold-Singleは、大規模なタンパク質言語モデルとAlphaFold2の優れた幾何学的学習能力を組み合わせるために提案されている。提案手法は,数千万の一次配列を持つ大規模タンパク質言語モデルを事前学習する。我々は、一次系列のみから原子の3次元座標を予測するために、エンドツーエンドの微分可能なモデルを得る。
論文参考訳（メタデータ） (2022-07-28T07:30:33Z)
Generative power of a protein language model trained on multiple sequence alignments [0.5639904484784126]
進化に関連したタンパク質配列の大規模なアンサンブルから始まる計算モデルは、タンパク質ファミリーの表現を捉えている。 MSA Transformerのような複数の配列アライメントに基づいて訓練されたタンパク質言語モデルは、この目的に対して非常に魅力的な候補である。マスク付き言語モデリングの目的を直接利用して,MSA変換器を用いてシーケンスを生成する反復手法を提案し,検証する。
論文参考訳（メタデータ） (2022-04-14T16:59:05Z)
Few Shot Protein Generation [4.7210697296108926]
マルチシークエンスアライメント(MSA)で表されるタンパク質ファミリーに条件付けられたタンパク質配列の生成モデルであるMSA-to-タンパク質トランスフォーマーについて述べる。タンパク質ファミリーの生成モデルを学習するための既存のアプローチとは異なり、MSA-to-タンパク質トランスフォーマー条件は、多重配列アライメントの学習エンコーディングを直接生成する。我々の生成的アプローチは、エピスタシスとインデルを正確にモデル化し、他のアプローチとは異なり、正確な推論と効率的なサンプリングを可能にします。
論文参考訳（メタデータ） (2022-04-03T22:14:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。