論文の概要: Reprogramming Pretrained Language Models for Antibody Sequence Infilling
- arxiv url: http://arxiv.org/abs/2210.07144v2
- Date: Mon, 19 Jun 2023 21:42:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 05:28:01.719729
- Title: Reprogramming Pretrained Language Models for Antibody Sequence Infilling
- Title(参考訳): 抗体配列インフィルディングのための訓練済み言語モデルの再プログラミング
- Authors: Igor Melnyk, Vijil Chenthamarakshan, Pin-Yu Chen, Payel Das, Amit
Dhurandhar, Inkit Padhi, Devleena Das
- Abstract要約: 抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
- 参考スコア(独自算出の注目度): 72.13295049594585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Antibodies comprise the most versatile class of binding molecules, with
numerous applications in biomedicine. Computational design of antibodies
involves generating novel and diverse sequences, while maintaining structural
consistency. Unique to antibodies, designing the complementarity-determining
region (CDR), which determines the antigen binding affinity and specificity,
creates its own unique challenges. Recent deep learning models have shown
impressive results, however the limited number of known antibody
sequence/structure pairs frequently leads to degraded performance, particularly
lacking diversity in the generated sequences. In our work we address this
challenge by leveraging Model Reprogramming (MR), which repurposes pretrained
models on a source language to adapt to the tasks that are in a different
language and have scarce data - where it may be difficult to train a
high-performing model from scratch or effectively fine-tune an existing
pre-trained model on the specific task. Specifically, we introduce ReprogBert
in which a pretrained English language model is repurposed for protein sequence
infilling - thus considers cross-language adaptation using less data. Results
on antibody design benchmarks show that our model on low-resourced antibody
sequence dataset provides highly diverse CDR sequences, up to more than a
two-fold increase of diversity over the baselines, without losing structural
integrity and naturalness. The generated sequences also demonstrate enhanced
antigen binding specificity and virus neutralization ability. Code is available
at https://github.com/IBM/ReprogBERT
- Abstract(参考訳): 抗体は最も汎用的な結合分子であり、バイオメディシンに多くの応用がある。
抗体の計算設計は、構造的一貫性を維持しながら、新しく多様な配列を生成することを伴う。
抗原結合親和性と特異性を決定する相補性決定領域(CDR)を設計する抗体は、独自の課題を生み出す。
近年のディープラーニングモデルは印象的な結果を示しているが、既知の抗体配列/構造ペアの数が限られているため、性能が劣化し、特に生成された配列の多様性が欠如している。
私たちの研究では、ソース言語で事前学習されたモデルを再利用して、異なる言語に属するタスクに適応し、少ないデータを持つモデル再プログラミング(MR)を活用して、この課題に対処しています。
具体的には、プレトレーニングされた英語モデルをタンパク質配列の埋め込みのために再利用するReprogBertを導入し、少ないデータを用いたクロスランゲージ適応を考察する。
抗体設計ベンチマークの結果,低リソース抗体配列データセットのモデルが,構造的完全性と自然性を失うことなく,ベースライン上の多様性を最大2倍に増やす,高度に多様なcdr配列を提供することが示された。
生成された配列はまた、抗原結合特異性とウイルス中和能の増強を示す。
コードはhttps://github.com/IBM/ReprogBERTで入手できる。
関連論文リスト
- S$^2$ALM: Sequence-Structure Pre-trained Large Language Model for Comprehensive Antibody Representation Learning [8.059724314850799]
抗体は、特定の抗原に正確かつ強力な結合を通じて健康を守り、新型コロナウイルスを含む多くの疾患の治療に有望な治療効果を示す。
バイオメディカル言語モデルの最近の進歩は、複雑な生物学的構造や機能を理解する大きな可能性を示している。
本稿では,1つの総合的抗体基盤モデルにおいて,包括的および構造的情報を組み合わせたシーケンス構造型多段階事前訓練抗体言語モデル(S$2$ALM)を提案する。
論文 参考訳(メタデータ) (2024-11-20T14:24:26Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Large scale paired antibody language models [40.401345152825314]
IgBert と IgT5 は,これまでに開発された抗体特異的言語モデルの中で最も優れた性能を示した。
これらのモデルは、20億以上のObserved Spaceデータセットを使用して、包括的にトレーニングされている。
この進歩は、治療開発のための抗体設計を強化するために、機械学習、大規模データセット、高性能コンピューティングを活用する上で大きな前進となる。
論文 参考訳(メタデータ) (2024-03-26T17:21:54Z) - Decoupled Sequence and Structure Generation for Realistic Antibody Design [45.72237864940556]
本稿では, 配列生成と構造予測を分離した抗体配列構造デカップリング(ASSD)フレームワークを提案する。
また、広く使われている非自己回帰生成器は、過度に繰り返されるトークンを含むシーケンスを促進する。
以上の結果から,ASSDは既存の抗体設計モデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-02-08T13:02:05Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Incorporating Pre-training Paradigm for Antibody Sequence-Structure
Co-design [134.65287929316673]
深層学習に基づく計算抗体の設計は、人間の経験を補完する可能性のあるデータから自動的に抗体パターンをマイニングするので、注目を集めている。
計算手法は高品質な抗体構造データに大きく依存しており、非常に限定的である。
幸いなことに、CDRをモデル化し、構造データへの依存を軽減するために有効な抗体の配列データが多数存在する。
論文 参考訳(メタデータ) (2022-10-26T15:31:36Z) - Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文 参考訳(メタデータ) (2022-08-10T13:30:58Z) - Benchmarking deep generative models for diverse antibody sequence design [18.515971640245997]
シーケンスのみから、あるいはシーケンスと構造を共同で学習する深層生成モデルは、このタスクにおいて印象的なパフォーマンスを示している。
最近提案されたタンパク質設計のための3つの深い生成フレームワークについて考察する: (AR) 配列ベースの自己回帰生成モデル、(GVP) 正確な構造ベースのグラフニューラルネットワーク、そして3次元折り畳みのファジィでスケールフリーな表現を利用するFold2Seq。
我々は,これらのモデルを,機能的含意に高い多様性を持つ設計配列を必要とする抗体配列の計算設計のタスクに基づいてベンチマークする。
論文 参考訳(メタデータ) (2021-11-12T16:23:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。