論文の概要: S$^2$ALM: Sequence-Structure Pre-trained Large Language Model for Comprehensive Antibody Representation Learning
- arxiv url: http://arxiv.org/abs/2411.15215v1
- Date: Wed, 20 Nov 2024 14:24:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:22:32.244511
- Title: S$^2$ALM: Sequence-Structure Pre-trained Large Language Model for Comprehensive Antibody Representation Learning
- Title(参考訳): S$^2$ALM: 包括的抗体表現学習のためのシーケンス構造事前学習型大規模言語モデル
- Authors: Mingze Yin, Hanjing Zhou, Jialu Wu, Yiheng Zhu, Yuxuan Zhan, Zitai Kong, Hongxia Xu, Chang-Yu Hsieh, Jintai Chen, Tingjun Hou, Jian Wu,
- Abstract要約: 抗体は、特定の抗原に正確かつ強力な結合を通じて健康を守り、新型コロナウイルスを含む多くの疾患の治療に有望な治療効果を示す。
バイオメディカル言語モデルの最近の進歩は、複雑な生物学的構造や機能を理解する大きな可能性を示している。
本稿では,1つの総合的抗体基盤モデルにおいて,包括的および構造的情報を組み合わせたシーケンス構造型多段階事前訓練抗体言語モデル(S$2$ALM)を提案する。
- 参考スコア(独自算出の注目度): 8.059724314850799
- License:
- Abstract: Antibodies safeguard our health through their precise and potent binding to specific antigens, demonstrating promising therapeutic efficacy in the treatment of numerous diseases, including COVID-19. Recent advancements in biomedical language models have shown the great potential to interpret complex biological structures and functions. However, existing antibody specific models have a notable limitation that they lack explicit consideration for antibody structural information, despite the fact that both 1D sequence and 3D structure carry unique and complementary insights into antibody behavior and functionality. This paper proposes Sequence-Structure multi-level pre-trained Antibody Language Model (S$^2$ALM), combining holistic sequential and structural information in one unified, generic antibody foundation model. We construct a hierarchical pre-training paradigm incorporated with two customized multi-level training objectives to facilitate the modeling of comprehensive antibody representations. S$^2$ALM's representation space uncovers inherent functional binding mechanisms, biological evolution properties and structural interaction patterns. Pre-trained over 75 million sequences and 11.7 million structures, S$^2$ALM can be adopted for diverse downstream tasks: accurately predicting antigen-antibody binding affinities, precisely distinguishing B cell maturation stages, identifying antibody crucial binding positions, and specifically designing novel coronavirus-binding antibodies. Remarkably, S$^2$ALM outperforms well-established and renowned baselines and sets new state-of-the-art performance across extensive antibody specific understanding and generation tasks. S$^2$ALM's ability to model comprehensive and generalized representations further positions its potential to advance real-world therapeutic antibody development, potentially addressing unmet academic, industrial, and clinical needs.
- Abstract(参考訳): 抗体は、特定の抗原に正確かつ強力な結合を通じて健康を守り、新型コロナウイルスを含む多くの疾患の治療に有望な治療効果を示す。
バイオメディカル言語モデルの最近の進歩は、複雑な生物学的構造や機能を理解する大きな可能性を示している。
しかし, 既存の抗体特異的モデルでは, 1D配列と3D構造の両方が, 抗体の挙動や機能に関する特異かつ相補的な洞察を持っているにもかかわらず, 抗体構造情報の明確な考慮が欠如していることが顕著である。
本稿では,1つの総合的抗体基盤モデルにおいて,総合的な逐次的および構造的情報を組み合わせたシーケンス・ストラクチャー・マルチレベル事前学習型抗体言語モデル(S$^2$ALM)を提案する。
包括的抗体表現のモデリングを容易にするため、2つのカスタマイズされたマルチレベルトレーニング目標を組み込んだ階層型事前学習パラダイムを構築した。
S$2$ALMの表現空間は、固有の機能的結合機構、生物学的進化特性、構造的相互作用パターンを明らかにする。
7500万以上の配列と117万構造を事前訓練したS$^2$ALMは、抗原と抗体の結合親和性を正確に予測し、B細胞の成熟段階を正確に識別し、抗体が重要な結合位置を同定し、特に新型コロナウイルスと結合する抗体を設計する、様々な下流タスクに採用することができる。
注目すべきは、S$^2$ALMは、確立された、そして有名なベースラインを上回り、幅広い抗体特異的理解および生成タスクにまたがって、最先端のパフォーマンスを新たに設定することである。
包括的および一般化された表現をモデル化するS$2$ALMの能力は、非金属的な学術的、工業的、臨床的なニーズに対処し、実際の治療用抗体の開発を進展させる可能性をさらに高めている。
関連論文リスト
- Large scale paired antibody language models [40.401345152825314]
IgBert と IgT5 は,これまでに開発された抗体特異的言語モデルの中で最も優れた性能を示した。
これらのモデルは、20億以上のObserved Spaceデータセットを使用して、包括的にトレーニングされている。
この進歩は、治療開発のための抗体設計を強化するために、機械学習、大規模データセット、高性能コンピューティングを活用する上で大きな前進となる。
論文 参考訳(メタデータ) (2024-03-26T17:21:54Z) - Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z) - A Hierarchical Training Paradigm for Antibody Structure-sequence
Co-design [54.30457372514873]
抗体配列構造共設計のための階層的訓練パラダイム(HTP)を提案する。
HTPは4段階の訓練段階から構成され、それぞれが特定のタンパク質のモダリティに対応する。
実証実験により、HTPは共同設計問題において新しい最先端性能を設定できることが示されている。
論文 参考訳(メタデータ) (2023-10-30T02:39:15Z) - Cross-Gate MLP with Protein Complex Invariant Embedding is A One-Shot
Antibody Designer [58.97153056120193]
抗体の特異性は、その相補性決定領域(CDR)によって決定される
従来の研究では、複雑な技術を使ってCDRを生成するが、不適切な幾何学的モデリングに悩まされている。
本稿では,CDRの1次元配列と3次元構造を1ショットで共設計できるテクスタイスシンプルで効果的なモデルを提案する。
論文 参考訳(メタデータ) (2023-04-21T13:24:26Z) - xTrimoABFold: De novo Antibody Structure Prediction without MSA [77.47606749555686]
我々は、抗体配列から抗体構造を予測するために、xTrimoABFoldという新しいモデルを開発した。
CDRにおけるドメイン特異的焦点損失のアンサンブル損失とフレーム整合点損失を最小化することにより,PDBの抗体構造をエンドツーエンドにトレーニングした。
論文 参考訳(メタデータ) (2022-11-30T09:26:08Z) - Incorporating Pre-training Paradigm for Antibody Sequence-Structure
Co-design [134.65287929316673]
深層学習に基づく計算抗体の設計は、人間の経験を補完する可能性のあるデータから自動的に抗体パターンをマイニングするので、注目を集めている。
計算手法は高品質な抗体構造データに大きく依存しており、非常に限定的である。
幸いなことに、CDRをモデル化し、構造データへの依存を軽減するために有効な抗体の配列データが多数存在する。
論文 参考訳(メタデータ) (2022-10-26T15:31:36Z) - Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文 参考訳(メタデータ) (2022-10-05T20:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。