論文の概要: Large scale paired antibody language models
- arxiv url: http://arxiv.org/abs/2403.17889v1
- Date: Tue, 26 Mar 2024 17:21:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 14:08:24.600059
- Title: Large scale paired antibody language models
- Title(参考訳): 大規模対抗体言語モデル
- Authors: Henry Kenlay, Frédéric A. Dreyer, Aleksandr Kovaltsuk, Dom Miketa, Douglas Pires, Charlotte M. Deane,
- Abstract要約: IgBert と IgT5 は,これまでに開発された抗体特異的言語モデルの中で最も優れた性能を示した。
これらのモデルは、20億以上のObserved Spaceデータセットを使用して、包括的にトレーニングされている。
この進歩は、治療開発のための抗体設計を強化するために、機械学習、大規模データセット、高性能コンピューティングを活用する上で大きな前進となる。
- 参考スコア(独自算出の注目度): 40.401345152825314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Antibodies are proteins produced by the immune system that can identify and neutralise a wide variety of antigens with high specificity and affinity, and constitute the most successful class of biotherapeutics. With the advent of next-generation sequencing, billions of antibody sequences have been collected in recent years, though their application in the design of better therapeutics has been constrained by the sheer volume and complexity of the data. To address this challenge, we present IgBert and IgT5, the best performing antibody-specific language models developed to date which can consistently handle both paired and unpaired variable region sequences as input. These models are trained comprehensively using the more than two billion unpaired sequences and two million paired sequences of light and heavy chains present in the Observed Antibody Space dataset. We show that our models outperform existing antibody and protein language models on a diverse range of design and regression tasks relevant to antibody engineering. This advancement marks a significant leap forward in leveraging machine learning, large scale data sets and high-performance computing for enhancing antibody design for therapeutic development.
- Abstract(参考訳): 抗体は免疫系によって産生されるタンパク質で、多種多様な抗原を高い特異性と親和性で同定し中和し、最も成功した生物療法のクラスを構成する。
次世代シークエンシングの出現に伴い、何十億もの抗体配列が近年収集されているが、それらのより良い治療設計への応用はデータの量と複雑さによって制限されている。
この課題に対処するため、IgBert と IgT5 は、これまで開発された最も優れた抗体特異的言語モデルであり、ペアとアンペアの両方の可変領域配列を入力として一貫して扱うことができる。
これらのモデルは、20億以上の未ペア配列と、観測された抗体空間データセットに存在する200万組の光鎖と重鎖を用いて、包括的に訓練されている。
本モデルは, 抗体工学に関連する多種多様な設計および回帰タスクにおいて, 既存の抗体およびタンパク質言語モデルより優れていることを示す。
この進歩は、治療開発のための抗体設計を強化するために機械学習、大規模データセット、高性能コンピューティングを活用する上で大きな前進となる。
関連論文リスト
- S$^2$ALM: Sequence-Structure Pre-trained Large Language Model for Comprehensive Antibody Representation Learning [8.059724314850799]
抗体は、特定の抗原に正確かつ強力な結合を通じて健康を守り、新型コロナウイルスを含む多くの疾患の治療に有望な治療効果を示す。
バイオメディカル言語モデルの最近の進歩は、複雑な生物学的構造や機能を理解する大きな可能性を示している。
本稿では,1つの総合的抗体基盤モデルにおいて,包括的および構造的情報を組み合わせたシーケンス構造型多段階事前訓練抗体言語モデル(S$2$ALM)を提案する。
論文 参考訳(メタデータ) (2024-11-20T14:24:26Z) - Antigen-Specific Antibody Design via Direct Energy-based Preference Optimization [51.28231365213679]
我々は,抗原特異的抗体配列構造共設計を,特定の嗜好に対する最適化問題として取り組んだ。
そこで本研究では,有理構造と抗原への結合親和性の両方を有する抗体の生成を誘導する,直接エネルギーに基づく選好最適化を提案する。
論文 参考訳(メタデータ) (2024-03-25T09:41:49Z) - xTrimoABFold: De novo Antibody Structure Prediction without MSA [77.47606749555686]
我々は、抗体配列から抗体構造を予測するために、xTrimoABFoldという新しいモデルを開発した。
CDRにおけるドメイン特異的焦点損失のアンサンブル損失とフレーム整合点損失を最小化することにより,PDBの抗体構造をエンドツーエンドにトレーニングした。
論文 参考訳(メタデータ) (2022-11-30T09:26:08Z) - Incorporating Pre-training Paradigm for Antibody Sequence-Structure
Co-design [134.65287929316673]
深層学習に基づく計算抗体の設計は、人間の経験を補完する可能性のあるデータから自動的に抗体パターンをマイニングするので、注目を集めている。
計算手法は高品質な抗体構造データに大きく依存しており、非常に限定的である。
幸いなことに、CDRをモデル化し、構造データへの依存を軽減するために有効な抗体の配列データが多数存在する。
論文 参考訳(メタデータ) (2022-10-26T15:31:36Z) - Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文 参考訳(メタデータ) (2022-10-05T20:44:55Z) - Antibody Representation Learning for Drug Discovery [7.291511531280898]
新規なSARS-CoV-2抗体結合データセットと追加ベンチマークデータセットについて報告する。
従来の統計的シーケンスモデル,各データセットの教師付き学習,および抗体特異的事前訓練言語モデルの微調整の3つのクラスを比較した。
実験結果から,特徴表現の自己教師付き事前学習は,従来の手法よりも大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2022-10-05T13:48:41Z) - Accelerating Antimicrobial Discovery with Controllable Deep Generative
Models and Molecular Dynamics [109.70543391923344]
CLaSS(Controlled Latent attribute Space Smpling)は、分子の属性制御のための効率的な計算手法である。
深層学習分類器と原子論シミュレーションから得られた新しい特徴を併用して, 生成分子を付加的なキー属性としてスクリーニングする。
提案手法は, 強い広帯域能を有する非毒性抗菌性ペプチド(AMP)を設計するためのものである。
論文 参考訳(メタデータ) (2020-05-22T15:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。