論文の概要: Reprogramming Pretrained Language Models for Antibody Sequence Infilling
- arxiv url: http://arxiv.org/abs/2210.07144v2
- Date: Mon, 19 Jun 2023 21:42:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 05:28:01.719729
- Title: Reprogramming Pretrained Language Models for Antibody Sequence Infilling
- Title(参考訳): 抗体配列インフィルディングのための訓練済み言語モデルの再プログラミング
- Authors: Igor Melnyk, Vijil Chenthamarakshan, Pin-Yu Chen, Payel Das, Amit
Dhurandhar, Inkit Padhi, Devleena Das
- Abstract要約: 抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
- 参考スコア(独自算出の注目度): 72.13295049594585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Antibodies comprise the most versatile class of binding molecules, with
numerous applications in biomedicine. Computational design of antibodies
involves generating novel and diverse sequences, while maintaining structural
consistency. Unique to antibodies, designing the complementarity-determining
region (CDR), which determines the antigen binding affinity and specificity,
creates its own unique challenges. Recent deep learning models have shown
impressive results, however the limited number of known antibody
sequence/structure pairs frequently leads to degraded performance, particularly
lacking diversity in the generated sequences. In our work we address this
challenge by leveraging Model Reprogramming (MR), which repurposes pretrained
models on a source language to adapt to the tasks that are in a different
language and have scarce data - where it may be difficult to train a
high-performing model from scratch or effectively fine-tune an existing
pre-trained model on the specific task. Specifically, we introduce ReprogBert
in which a pretrained English language model is repurposed for protein sequence
infilling - thus considers cross-language adaptation using less data. Results
on antibody design benchmarks show that our model on low-resourced antibody
sequence dataset provides highly diverse CDR sequences, up to more than a
two-fold increase of diversity over the baselines, without losing structural
integrity and naturalness. The generated sequences also demonstrate enhanced
antigen binding specificity and virus neutralization ability. Code is available
at https://github.com/IBM/ReprogBERT
- Abstract(参考訳): 抗体は最も汎用的な結合分子であり、バイオメディシンに多くの応用がある。
抗体の計算設計は、構造的一貫性を維持しながら、新しく多様な配列を生成することを伴う。
抗原結合親和性と特異性を決定する相補性決定領域(CDR)を設計する抗体は、独自の課題を生み出す。
近年のディープラーニングモデルは印象的な結果を示しているが、既知の抗体配列/構造ペアの数が限られているため、性能が劣化し、特に生成された配列の多様性が欠如している。
私たちの研究では、ソース言語で事前学習されたモデルを再利用して、異なる言語に属するタスクに適応し、少ないデータを持つモデル再プログラミング(MR)を活用して、この課題に対処しています。
具体的には、プレトレーニングされた英語モデルをタンパク質配列の埋め込みのために再利用するReprogBertを導入し、少ないデータを用いたクロスランゲージ適応を考察する。
抗体設計ベンチマークの結果,低リソース抗体配列データセットのモデルが,構造的完全性と自然性を失うことなく,ベースライン上の多様性を最大2倍に増やす,高度に多様なcdr配列を提供することが示された。
生成された配列はまた、抗原結合特異性とウイルス中和能の増強を示す。
コードはhttps://github.com/IBM/ReprogBERTで入手できる。
関連論文リスト
- Predicting Anti-microbial Resistance using Large Language Models [0.3932595746600919]
本稿では, 各種抗生物質耐性遺伝子のデータベースに基づいて, ヌクレオチド配列言語モデルとテキスト言語モデルを微調整する手法を提案する。
本手法は薬剤耐性クラス予測においてヌクレオチド配列言語モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-01-01T03:04:14Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling
with Backtracking [98.22870889029114]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練や大きなアーキテクチャ変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - xTrimoABFold: De novo Antibody Structure Prediction without MSA [77.47606749555686]
我々は、抗体配列から抗体構造を予測するために、xTrimoABFoldという新しいモデルを開発した。
CDRにおけるドメイン特異的焦点損失のアンサンブル損失とフレーム整合点損失を最小化することにより,PDBの抗体構造をエンドツーエンドにトレーニングした。
論文 参考訳(メタデータ) (2022-11-30T09:26:08Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Incorporating Pre-training Paradigm for Antibody Sequence-Structure
Co-design [134.65287929316673]
深層学習に基づく計算抗体の設計は、人間の経験を補完する可能性のあるデータから自動的に抗体パターンをマイニングするので、注目を集めている。
計算手法は高品質な抗体構造データに大きく依存しており、非常に限定的である。
幸いなことに、CDRをモデル化し、構造データへの依存を軽減するために有効な抗体の配列データが多数存在する。
論文 参考訳(メタデータ) (2022-10-26T15:31:36Z) - Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文 参考訳(メタデータ) (2022-08-10T13:30:58Z) - Benchmarking deep generative models for diverse antibody sequence design [18.515971640245997]
シーケンスのみから、あるいはシーケンスと構造を共同で学習する深層生成モデルは、このタスクにおいて印象的なパフォーマンスを示している。
最近提案されたタンパク質設計のための3つの深い生成フレームワークについて考察する: (AR) 配列ベースの自己回帰生成モデル、(GVP) 正確な構造ベースのグラフニューラルネットワーク、そして3次元折り畳みのファジィでスケールフリーな表現を利用するFold2Seq。
我々は,これらのモデルを,機能的含意に高い多様性を持つ設計配列を必要とする抗体配列の計算設計のタスクに基づいてベンチマークする。
論文 参考訳(メタデータ) (2021-11-12T16:23:32Z) - Iterative Refinement Graph Neural Network for Antibody
Sequence-Structure Co-design [35.215029426177004]
そこで本研究では,結合特異性や中和機能を増強した抗体を自動設計する生成モデルを提案する。
本手法は,SARS-CoV-2ウイルスを中和可能な抗体の設計において,テストセット上で優れたログライクレーションを実現し,過去のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2021-10-09T18:23:32Z) - Adversarial and Contrastive Variational Autoencoder for Sequential
Recommendation [25.37244686572865]
本稿では、逐次レコメンデーションのためのAdversarial and Contrastive Variational Autoencoder (ACVAE) と呼ばれる新しい手法を提案する。
まず,本モデルが高品質な潜在変数を生成することを可能にするadversarial variational bayesフレームワークの下で,シーケンス生成のためのadversarial trainingを導入する。
さらに、シーケンスをエンコードする場合、シーケンス内のグローバルおよびローカルの関係をキャプチャするために、繰り返しおよび畳み込み構造を適用します。
論文 参考訳(メタデータ) (2021-03-19T09:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。