論文の概要: Function-Guided Conditional Generation Using Protein Language Models with Adapters
- arxiv url: http://arxiv.org/abs/2410.03634v2
- Date: Wed, 11 Jun 2025 23:50:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.053888
- Title: Function-Guided Conditional Generation Using Protein Language Models with Adapters
- Title(参考訳): 適応型タンパク質言語モデルを用いた関数誘導条件生成
- Authors: Jason Yang, Aadyot Bhatnagar, Jeffrey A. Ruffolo, Ali Madani,
- Abstract要約: 本稿では,タンパク質言語モデルへのアダプタを用いたタンパク質の条件生成手法であるProCALMを提案する。
ProCALMは、ターゲット関数からの条件付きシーケンス生成において、既存のメソッドのパフォーマンスと一致またはオーバーする。
また、稀で見えない関数にも一般化できる。
- 参考スコア(独自算出の注目度): 2.054090599961347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The conditional generation of proteins with desired functions is a key goal for generative models. Existing methods based on prompting of protein language models (PLMs) can generate proteins conditioned on a target functionality, such as a desired enzyme family. However, these methods are limited to simple, tokenized conditioning and have not been shown to generalize to unseen functions. In this study, we propose ProCALM (Protein Conditionally Adapted Language Model), an approach for the conditional generation of proteins using adapters to PLMs. While previous methods have used adapters for structure-conditioned generation from PLMs, our implementation of ProCALM involves finetuning ProGen2 to condition generation based on versatile representations of protein function-e.g. enzyme family, taxonomy, or natural language descriptions. ProCALM matches or exceeds the performance of existing methods at conditional sequence generation from target functions. Impressively, it can also generalize to rare and unseen functions. Overall, ProCALM is a flexible and computationally efficient approach, and we expect that it can be extended to a wide range of generative language models.
- Abstract(参考訳): 所望の機能を持つタンパク質の条件付き生成は、生成モデルの重要な目標である。
タンパク質言語モデル(PLM)のプロンプトに基づく既存の方法は、所望の酵素ファミリーのような標的機能で条件付けられたタンパク質を生成することができる。
しかし、これらの手法は単純でトークン化された条件付けに限定されており、目に見えない関数に一般化することが示されていない。
本研究では,PLMへのアダプタを用いたタンパク質の条件生成手法である ProCALM (Protein Conditionally Adapted Language Model) を提案する。
従来の手法ではPLMからの構造条件付き生成のためのアダプタが用いられてきたが、ProCALMの実装では、タンパク質機能-eg酵素ファミリー、分類学、自然言語記述の多目的表現に基づく条件生成にProGen2を微調整する。
ProCALMは、ターゲット関数からの条件付きシーケンス生成において、既存のメソッドのパフォーマンスと一致またはオーバーする。
印象的なことに、これは稀で目に見えない関数にも一般化することができる。
全体として, ProCALMはフレキシブルかつ計算効率のよいアプローチであり, 幅広い生成言語モデルに拡張できることを期待する。
関連論文リスト
- Structure Language Models for Protein Conformation Generation [66.42864253026053]
伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。
深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。
本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
論文 参考訳(メタデータ) (2024-10-24T03:38:51Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z) - Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。
PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。
PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-01-26T12:47:54Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - FiLM: Fill-in Language Models for Any-Order Generation [71.42044325886194]
Fill-in Language Model (FiLM) は、特定の生成順序に固執することなく任意の位置で柔軟な生成を可能にする新しい言語モデリング手法である。
推論中、FiLMは欠落したフレーズ、文、段落をシームレスに挿入できる。
FiLMは、再構成されたテキストセグメントでトレーニングされた左から右への言語モデルに依存する既存のインフィル手法よりも優れています。
論文 参考訳(メタデータ) (2023-10-15T19:37:39Z) - PoET: A generative model of protein families as sequences-of-sequences [5.05828899601167]
本稿では,関連タンパク質の集合を配列配列として生成する過程を学習するタンパク質ファミリー全体の生成モデルを提案する。
PoETは検索拡張言語モデルとして使用することができ、任意のタンパク質ファミリーに設定された任意の変更を生成し、スコア付けすることができる。
以上の結果から,PoETはタンパク質言語モデルと進化的配列モデルに優れており,全ての深さのタンパク質をまたいだ変異関数の予測が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-09T16:06:36Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - Unsupervised language models for disease variant prediction [3.6942566104432886]
広い配列のデータセットで訓練された1つのタンパク質LMは、あらゆる遺伝子変異ゼロショットに対して病原性を評価することができる。
臨床的にラベル付けされた疾患関連遺伝子の変異について評価すると,その評価性能は最先端技術に匹敵することがわかった。
論文 参考訳(メタデータ) (2022-12-07T22:28:13Z) - Few Shot Protein Generation [4.7210697296108926]
マルチシークエンスアライメント(MSA)で表されるタンパク質ファミリーに条件付けられたタンパク質配列の生成モデルであるMSA-to-タンパク質トランスフォーマーについて述べる。
タンパク質ファミリーの生成モデルを学習するための既存のアプローチとは異なり、MSA-to-タンパク質トランスフォーマー条件は、多重配列アライメントの学習エンコーディングを直接生成する。
我々の生成的アプローチは、エピスタシスとインデルを正確にモデル化し、他のアプローチとは異なり、正確な推論と効率的なサンプリングを可能にします。
論文 参考訳(メタデータ) (2022-04-03T22:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。