論文の概要: Reprogramming Large Pretrained Language Models for Antibody Sequence
Infilling
- arxiv url: http://arxiv.org/abs/2210.07144v1
- Date: Wed, 5 Oct 2022 20:44:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 16:11:26.936570
- Title: Reprogramming Large Pretrained Language Models for Antibody Sequence
Infilling
- Title(参考訳): 抗体配列インフィルディングのための大規模事前学習言語モデルの再プログラミング
- Authors: Igor Melnyk, Vijil Chenthamarakshan, Pin-Yu Chen, Payel Das, Amit
Dhurandhar, Inkit Padhi, Devleena Das
- Abstract要約: 治療用抗体の開発には、改良された性質を持つ新規で多様な配列を設計する必要がある。
ディープ言語モデルとグラフニューラルネットワークは、抗体配列生成において驚くべき成功を収めている。
本稿では,タンパク質配列を埋め込むために,事前学習された自然言語モデルを再利用するフレームワークであるProtein Sequence Infillingについて紹介する。
- 参考スコア(独自算出の注目度): 72.13295049594585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Antibodies comprise the most versatile class of binding molecules, with
numerous applications in biomedicine. Therapeutic antibody development requires
designing novel and diverse sequences with improved properties, while
maintaining the structural consistency. Recently, deep language models and
graph neural networks have shown impressive success in antibody sequence
generation. Since only a limited number of antibody structures are known,
training a model using this limited data can lead to degraded performance,
particularly lacking diversity in the generated samples. To address such
issues, we leverage the method of Model Reprogramming (MR), which focuses on
repurposing pretrained machine learning models for target domain tasks with
scarce data, where it may be difficult to train a high-performing model from
scratch. We introduce Reprogramming for Protein Sequence Infilling, a framework
in which pretrained natural language models are repurposed for protein sequence
infilling via reprogramming, to infill protein sequence templates as a method
of novel protein generation. For variable CDR sequence design, we formulate the
task as text infilling that uses the constant region of an antibody as the
sequence template. Results on antibody design benchmarks show that our
reprogrammed model on low resourced antibody sequence dataset provides highly
diverse CDR sequences, up to more than a two-fold increase of diversity over
the baselines, without losing structural integrity and naturalness. The
performance benefit of the reprogrammed model learning only from antibody
sequences is more evident for longer CDR design or for multiple loop infilling
at once, compared to existing graph-based models that require additional
structural information. The generated sequences also demonstrate enhanced
antigen binding specificity or virus neutralization ability.
- Abstract(参考訳): 抗体は最も汎用的な結合分子であり、バイオメディシンに多くの応用がある。
治療用抗体の開発には、構造的整合性を維持しつつ、特性を改善した新規で多様な配列を設計する必要がある。
近年,深層言語モデルとグラフニューラルネットは抗体配列生成において著しい成功を収めている。
限られた数の抗体構造しか知られていないため、この制限されたデータを用いたモデルのトレーニングは、特に生成されたサンプルの多様性を欠いた性能低下につながる可能性がある。
このような問題に対処するために,我々は,事前学習された機械学習モデルを不足した領域タスクに再導入することに焦点を当てたモデル再プログラミング手法(mr)を活用し,高パフォーマンスモデルのスクラッチからトレーニングすることが困難になる可能性がある。
本稿では, タンパク質配列を組込み, 新規なタンパク質生成手法として, リプログラミングによるタンパク質配列の組込みに, 事前学習した自然言語モデルを再利用するフレームワークであるProtein Sequence Infillingについて紹介する。
可変CDRシークエンス設計では,抗体の定数領域を配列テンプレートとして用いたテキスト入力としてタスクを定式化する。
抗体設計ベンチマークの結果,低リソース抗体配列データセットを用いたリプログラムモデルによって,構造的完全性と自然性を失うことなく,ベースライン上の多様性が最大2倍も増大する非常に多様なcdr配列が得られることが示された。
抗体配列のみから再プログラムされたモデル学習の性能上の利点は、追加構造情報を必要とする既存のグラフベースのモデルと比較して、cdr設計の長期化や複数のループインフィルメントにおいてより顕著である。
生成された配列はまた、抗原結合特異性またはウイルス中和能の増強を示す。
関連論文リスト
- S$^2$ALM: Sequence-Structure Pre-trained Large Language Model for Comprehensive Antibody Representation Learning [8.059724314850799]
抗体は、特定の抗原に正確かつ強力な結合を通じて健康を守り、新型コロナウイルスを含む多くの疾患の治療に有望な治療効果を示す。
バイオメディカル言語モデルの最近の進歩は、複雑な生物学的構造や機能を理解する大きな可能性を示している。
本稿では,1つの総合的抗体基盤モデルにおいて,包括的および構造的情報を組み合わせたシーケンス構造型多段階事前訓練抗体言語モデル(S$2$ALM)を提案する。
論文 参考訳(メタデータ) (2024-11-20T14:24:26Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Large scale paired antibody language models [40.401345152825314]
IgBert と IgT5 は,これまでに開発された抗体特異的言語モデルの中で最も優れた性能を示した。
これらのモデルは、20億以上のObserved Spaceデータセットを使用して、包括的にトレーニングされている。
この進歩は、治療開発のための抗体設計を強化するために、機械学習、大規模データセット、高性能コンピューティングを活用する上で大きな前進となる。
論文 参考訳(メタデータ) (2024-03-26T17:21:54Z) - Decoupled Sequence and Structure Generation for Realistic Antibody Design [45.72237864940556]
本稿では, 配列生成と構造予測を分離した抗体配列構造デカップリング(ASSD)フレームワークを提案する。
また、広く使われている非自己回帰生成器は、過度に繰り返されるトークンを含むシーケンスを促進する。
以上の結果から,ASSDは既存の抗体設計モデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-02-08T13:02:05Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Incorporating Pre-training Paradigm for Antibody Sequence-Structure
Co-design [134.65287929316673]
深層学習に基づく計算抗体の設計は、人間の経験を補完する可能性のあるデータから自動的に抗体パターンをマイニングするので、注目を集めている。
計算手法は高品質な抗体構造データに大きく依存しており、非常に限定的である。
幸いなことに、CDRをモデル化し、構造データへの依存を軽減するために有効な抗体の配列データが多数存在する。
論文 参考訳(メタデータ) (2022-10-26T15:31:36Z) - Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文 参考訳(メタデータ) (2022-08-10T13:30:58Z) - Benchmarking deep generative models for diverse antibody sequence design [18.515971640245997]
シーケンスのみから、あるいはシーケンスと構造を共同で学習する深層生成モデルは、このタスクにおいて印象的なパフォーマンスを示している。
最近提案されたタンパク質設計のための3つの深い生成フレームワークについて考察する: (AR) 配列ベースの自己回帰生成モデル、(GVP) 正確な構造ベースのグラフニューラルネットワーク、そして3次元折り畳みのファジィでスケールフリーな表現を利用するFold2Seq。
我々は,これらのモデルを,機能的含意に高い多様性を持つ設計配列を必要とする抗体配列の計算設計のタスクに基づいてベンチマークする。
論文 参考訳(メタデータ) (2021-11-12T16:23:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。