Fugu-MT 論文翻訳(概要): Structure-informed Language Models Are Protein Designers

論文の概要: Structure-informed Language Models Are Protein Designers

arxiv url: http://arxiv.org/abs/2302.01649v1
Date: Fri, 3 Feb 2023 10:49:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-06 16:35:13.901654
Title: Structure-informed Language Models Are Protein Designers
Title（参考訳）: 構造インフォームド言語モデルはタンパク質デザイナーである
Authors: Zaixiang Zheng, Yifan Deng, Dongyu Xue, Yi Zhou, Fei YE, and Quanquan Gu
Abstract要約: 配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。 pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
参考スコア（独自算出の注目度）: 69.70134899296912
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper demonstrates that language models are strong structure-based protein designers. We present LM-Design, a generic approach to reprogramming sequence-based protein language models (pLMs), that have learned massive sequential evolutionary knowledge from the universe of natural protein sequences, to acquire an immediate capability to design preferable protein sequences for given folds. We conduct a structural surgery on pLMs, where a lightweight structural adapter is implanted into pLMs and endows it with structural awareness. During inference, iterative refinement is performed to effectively optimize the generated protein sequences. Experiments show that our approach outperforms the state-of-the-art methods by a large margin, leading to up to 4% to 12% accuracy gains in sequence recovery (e.g., 55.65% and 56.63% on CATH 4.2 and 4.3 single-chain benchmarks, and >60% when designing protein complexes). We provide extensive and in-depth analyses, which verify that LM-Design can (1) indeed leverage both structural and sequential knowledge to accurately handle structurally non-deterministic regions, (2) benefit from scaling data and model size, and (3) generalize to other proteins (e.g., antibodies and de novo proteins)
Abstract（参考訳）: 本稿では,言語モデルが強い構造に基づくタンパク質設計者であることを示す。我々は,自然タンパク質配列の宇宙から膨大な進化的知識を習得した配列ベースのタンパク質言語モデル(plm)の再プログラミングのための汎用的アプローチであるlm-designを提案する。 pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。推論中、生成したタンパク質配列を効果的に最適化するために反復精製を行う。実験の結果、我々の手法は最先端の手法よりも大きなマージンで優れており、配列回復の精度は最大4%から12%向上している(例えば、CATH 4.2と4.3の単鎖ベンチマークでは55.65%、56.63%、タンパク質複合体を設計する場合は60%)。我々は,(1)構造的知識とシーケンシャル知識の両方を活用して,構造的非決定性領域を正確に処理できること,(2)スケールデータとモデルサイズによる利点,(3)他のタンパク質(抗体やデノボタンパク質など)への一般化が可能であることを検証した。

関連論文リスト

AMix-1: A Pathway to Test-Time Scalable Protein Foundation Model [92.51919604882984]
本稿では,Flow Bayesian Networks上に構築された強力なタンパク質基盤モデルAMix-1を紹介する。 AMix-1は、事前学習のスケーリング法則、創発的能力分析、コンテキスト内学習機構、テスト時間スケーリングアルゴリズムを含む、体系的なトレーニング手法によって強化されている。この基盤を基盤として、タンパク質設計を汎用フレームワークに統合するためのマルチシーケンスアライメント(MSA)ベースのコンテキスト内学習戦略を考案した。
論文参考訳（メタデータ） (2025-07-11T17:02:25Z)
Protein Large Language Models: A Comprehensive Survey [71.65899614084853]
タンパク質特異的な大規模言語モデル(Protein LLMs)は、より効率的なタンパク質構造予測、機能アノテーション、設計を可能にすることで、タンパク質科学に革命をもたらしている。この作業は、アーキテクチャ、データセットのトレーニング、評価メトリクス、さまざまなアプリケーションをカバーする、Protein LLMの最初の包括的な概要を提供する。
論文参考訳（メタデータ） (2025-02-21T19:22:10Z)
Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文参考訳（メタデータ） (2024-10-29T16:43:28Z)
CPE-Pro: A Structure-Sensitive Deep Learning Method for Protein Representation and Origin Evaluation [7.161099050722313]
タンパク質構造評価用結晶対予測学習モデル(CPE-Pro)を開発した。 CPE-Proはタンパク質の構造情報を学習し、構造間の差異を捉え、4つのデータクラスの正確なトレーサビリティを実現する。我々は Foldseek を用いてタンパク質構造を「構造配列」にエンコードし、タンパク質構造配列言語モデル SSLM を訓練した。
論文参考訳（メタデータ） (2024-10-21T02:21:56Z)
Learning the Language of Protein Structure [8.364087723533537]
本稿では,タンパク質構造を離散表現に効果的にトークン化するベクトル量子化オートエンコーダを用いたアプローチを提案する。学習した表現の有効性を示すために、コードブック上でトレーニングされた単純なGPTモデルにより、新規で多様性があり、設計可能なタンパク質構造を生成することができることを示す。
論文参考訳（メタデータ） (2024-05-24T16:03:47Z)
Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。 PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。 PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文参考訳（メタデータ） (2024-01-26T12:47:54Z)
xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。 xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文参考訳（メタデータ） (2024-01-11T15:03:17Z)
Functional Geometry Guided Protein Sequence and Backbone Structure Co-Design [12.585697288315846]
本稿では,自動検出機能部位に基づくタンパク質配列と構造を共同設計するモデルを提案する。 NAEProは、全シーケンスでグローバルな相関を捉えることができる、注目層と同変層のインターリービングネットワークによって駆動される。実験結果から,本モデルは全競技種の中で,最高アミノ酸回収率,TMスコア,最低RMSDを実現していることがわかった。
論文参考訳（メタデータ） (2023-10-06T16:08:41Z)
CCPL: Cross-modal Contrastive Protein Learning [47.095862120116976]
我々は、新しい教師なしタンパク質構造表現事前学習法、クロスモーダルコントラスト型タンパク質学習(CCPL)を導入する。 CCPLは堅牢なタンパク質言語モデルを活用し、教師なしのコントラストアライメントを用いて構造学習を強化する。さまざまなベンチマークでモデルを評価し,フレームワークの優位性を実証した。
論文参考訳（メタデータ） (2023-03-19T08:19:10Z)
State-specific protein-ligand complex structure prediction with a multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文参考訳（メタデータ） (2022-09-30T01:46:38Z)
Learning Geometrically Disentangled Representations of Protein Folding Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文参考訳（メタデータ） (2022-05-20T19:38:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。