論文の概要: A SARS-CoV-2 Interaction Dataset and VHH Sequence Corpus for Antibody Language Models
- arxiv url: http://arxiv.org/abs/2405.18749v1
- Date: Wed, 29 May 2024 04:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 18:48:25.249980
- Title: A SARS-CoV-2 Interaction Dataset and VHH Sequence Corpus for Antibody Language Models
- Title(参考訳): 抗体モデルのためのSARS-CoV-2相互作用データセットとVHH系列コーパス
- Authors: Hirofumi Tsuruta, Hiroyuki Yamazaki, Ryota Maeda, Ryotaro Tamura, Akihiro Imura,
- Abstract要約: AVIDa-SARS-CoV-2は重鎖抗体(VHH)相互作用の抗原可変ドメインを特徴とするデータセットである。
抗体言語モデルの事前学習データセットであるVHHCorpus-2Mには200万以上のVHH配列が含まれている。
VHHCorpus-2Mおよび既存の一般タンパク質および抗体特異的言語モデルを用いたVHHBERTを用いたSARS-CoV-2-VHH結合予測のためのベンチマーク結果を報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Antibodies are crucial proteins produced by the immune system to eliminate harmful foreign substances and have become pivotal therapeutic agents for treating human diseases. To accelerate the discovery of antibody therapeutics, there is growing interest in constructing language models using antibody sequences. However, the applicability of pre-trained language models for antibody discovery has not been thoroughly evaluated due to the scarcity of labeled datasets. To overcome these limitations, we introduce AVIDa-SARS-CoV-2, a dataset featuring the antigen-variable domain of heavy chain of heavy chain antibody (VHH) interactions obtained from two alpacas immunized with severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) spike proteins. AVIDa-SARS-CoV-2 includes binary labels indicating the binding or non-binding of diverse VHH sequences to 12 SARS-CoV-2 mutants, such as the Delta and Omicron variants. Furthermore, we release VHHCorpus-2M, a pre-training dataset for antibody language models, containing over two million VHH sequences. We report benchmark results for predicting SARS-CoV-2-VHH binding using VHHBERT pre-trained on VHHCorpus-2M and existing general protein and antibody-specific pre-trained language models. These results confirm that AVIDa-SARS-CoV-2 provides valuable benchmarks for evaluating the representation capabilities of antibody language models for binding prediction, thereby facilitating the development of AI-driven antibody discovery. The datasets are available at https://datasets.cognanous.com.
- Abstract(参考訳): 抗体は、有害な異物を取り除くために免疫系によって生産される重要なタンパク質であり、ヒト疾患の治療において重要な治療薬となっている。
抗体治療の発見を加速するため, 抗体配列を用いた言語モデル構築への関心が高まっている。
しかし,ラベル付きデータセットの不足により,事前学習した言語モデルの抗体発見への適用性は十分に評価されていない。
AVIDa-SARS-CoV-2は重症急性呼吸器症候群ウイルス2(SARS-CoV-2)スパイクタンパク質に免疫された2つのアルパサから得られた重鎖抗体(VHH)相互作用の抗原可変ドメインを特徴とするデータセットである。
AVIDa-SARS-CoV-2は、デルタおよびOmicron変異体のような12のSARS-CoV-2変異体への多様なVHH配列の結合または非結合を示すバイナリラベルを含む。
さらに,VHHCorpus-2Mは,200万以上のVHH配列を含む,抗体言語モデルの事前学習データセットである。
VHHCorpus-2Mおよび既存の一般タンパク質および抗体特異的言語モデルを用いたVHHBERTを用いたSARS-CoV-2-VHH結合予測のためのベンチマーク結果を報告する。
これらの結果は,AVIDa-SARS-CoV-2が結合予測のための抗体言語モデルの表現能力を評価するための貴重なベンチマークを提供し,AI駆動型抗体発見の開発を容易にすることを確認する。
データセットはhttps://datasets.cognanous.comで公開されている。
関連論文リスト
- AVIDa-hIL6: A Large-Scale VHH Dataset Produced from an Immunized Alpaca
for Predicting Antigen-Antibody Interactions [1.1381826108737396]
重鎖抗体(VHHs)の変異領域における抗原と抗体の相互作用を予測するための大規模データセットを開発した。
AVIDa-hIL6は、アミノ酸配列と573,891の抗原-VHHペアを含む。
機械学習モデルを用いたAVIDa-hIL6のベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2023-06-06T00:42:36Z) - Vaxformer: Antigenicity-controlled Transformer for Vaccine Design
Against SARS-CoV-2 [0.6850683267295248]
本研究では,Vaxformerと呼ばれる新しい条件付きタンパク質言語モデルアーキテクチャを提案する。
Vaxformerは天然の抗原性制御型SARS-CoV-2スパイクタンパク質を産生するように設計されている。
論文 参考訳(メタデータ) (2023-05-18T13:36:57Z) - xTrimoABFold: De novo Antibody Structure Prediction without MSA [77.47606749555686]
我々は、抗体配列から抗体構造を予測するために、xTrimoABFoldという新しいモデルを開発した。
CDRにおけるドメイン特異的焦点損失のアンサンブル損失とフレーム整合点損失を最小化することにより,PDBの抗体構造をエンドツーエンドにトレーニングした。
論文 参考訳(メタデータ) (2022-11-30T09:26:08Z) - Incorporating Pre-training Paradigm for Antibody Sequence-Structure
Co-design [134.65287929316673]
深層学習に基づく計算抗体の設計は、人間の経験を補完する可能性のあるデータから自動的に抗体パターンをマイニングするので、注目を集めている。
計算手法は高品質な抗体構造データに大きく依存しており、非常に限定的である。
幸いなことに、CDRをモデル化し、構造データへの依存を軽減するために有効な抗体の配列データが多数存在する。
論文 参考訳(メタデータ) (2022-10-26T15:31:36Z) - Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文 参考訳(メタデータ) (2022-10-05T20:44:55Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Accelerating Inhibitor Discovery for Multiple SARS-CoV-2 Targets with a
Single, Sequence-Guided Deep Generative Framework [47.14853881703749]
我々は、新規な薬物様阻害剤分子の発見に向けた、単一の深層生成機構の広範な有用性を実証する。
このフレームワークは、ターゲット認識設計を行うために、生成モデルから新規分子をターゲットシーケンス条件でサンプリングする。
最も強力なスパイクRBD阻害剤は、SARS-CoV-2変異株に対して幅広いスペクトル活性を有する稀な非共有結合型抗ウイルス剤として出現した。
論文 参考訳(メタデータ) (2022-04-19T17:59:46Z) - Using Deep Learning Sequence Models to Identify SARS-CoV-2 Divergence [1.9573380763700707]
SARS-CoV-2は上層呼吸器系RNAウイルスで、2021年5月時点で300万人以上が死亡し、全世界で1億5000万人以上が感染している。
本稿では、繰り返しおよび畳み込み単位を利用してスパイクタンパク質のアミノ酸配列を取り込み、対応するクレードを分類するニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2021-11-12T07:52:11Z) - DEEMD: Drug Efficacy Estimation against SARS-CoV-2 based on cell
Morphology with Deep multiple instance learning [8.716655008588361]
sars-cov-2に対する臨床応用に有効な化合物の同定を促進する。
deemdは、複数のインスタンス学習フレームワークでディープニューラルネットワークモデルを使用する計算パイプラインである。
DEEMDはRemdesivirやAloxistatinなどのSARS-CoV-2阻害剤を同定し、我々のアプローチの有効性を裏付ける。
論文 参考訳(メタデータ) (2021-05-10T20:38:34Z) - CovidDeep: SARS-CoV-2/COVID-19 Test Based on Wearable Medical Sensors
and Efficient Neural Networks [51.589769497681175]
新型コロナウイルス(SARS-CoV-2)がパンデミックを引き起こしている。
SARS-CoV-2の逆転写-ポリメラーゼ連鎖反応に基づく現在の試験体制は、試験要求に追いついていない。
我々は,効率的なDNNと市販のWMSを組み合わせたCovidDeepというフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-20T21:47:28Z) - PaccMann$^{RL}$ on SARS-CoV-2: Designing antiviral candidates with
conditional generative models [2.0750380105212116]
新型コロナウイルス(COVID-19)の世界的なパンデミックへの急速な発展に伴い、世界中の科学者が、効果的な抗ウイルス治療薬を必死に探している。
タンパク質標的に適合した抗ウイルス候補薬の条件付きデノボ設計のための深層学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-27T11:30:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。