Fugu-MT 論文翻訳(概要): A SARS-CoV-2 Interaction Dataset and VHH Sequence Corpus for Antibody Language Models

論文の概要: A SARS-CoV-2 Interaction Dataset and VHH Sequence Corpus for Antibody Language Models

arxiv url: http://arxiv.org/abs/2405.18749v1
Date: Wed, 29 May 2024 04:22:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 18:48:25.249980
Title: A SARS-CoV-2 Interaction Dataset and VHH Sequence Corpus for Antibody Language Models
Title（参考訳）: 抗体モデルのためのSARS-CoV-2相互作用データセットとVHH系列コーパス
Authors: Hirofumi Tsuruta, Hiroyuki Yamazaki, Ryota Maeda, Ryotaro Tamura, Akihiro Imura,
Abstract要約: AVIDa-SARS-CoV-2は重鎖抗体(VHH)相互作用の抗原可変ドメインを特徴とするデータセットである。抗体言語モデルの事前学習データセットであるVHHCorpus-2Mには200万以上のVHH配列が含まれている。 VHHCorpus-2Mおよび既存の一般タンパク質および抗体特異的言語モデルを用いたVHHBERTを用いたSARS-CoV-2-VHH結合予測のためのベンチマーク結果を報告する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Antibodies are crucial proteins produced by the immune system to eliminate harmful foreign substances and have become pivotal therapeutic agents for treating human diseases. To accelerate the discovery of antibody therapeutics, there is growing interest in constructing language models using antibody sequences. However, the applicability of pre-trained language models for antibody discovery has not been thoroughly evaluated due to the scarcity of labeled datasets. To overcome these limitations, we introduce AVIDa-SARS-CoV-2, a dataset featuring the antigen-variable domain of heavy chain of heavy chain antibody (VHH) interactions obtained from two alpacas immunized with severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) spike proteins. AVIDa-SARS-CoV-2 includes binary labels indicating the binding or non-binding of diverse VHH sequences to 12 SARS-CoV-2 mutants, such as the Delta and Omicron variants. Furthermore, we release VHHCorpus-2M, a pre-training dataset for antibody language models, containing over two million VHH sequences. We report benchmark results for predicting SARS-CoV-2-VHH binding using VHHBERT pre-trained on VHHCorpus-2M and existing general protein and antibody-specific pre-trained language models. These results confirm that AVIDa-SARS-CoV-2 provides valuable benchmarks for evaluating the representation capabilities of antibody language models for binding prediction, thereby facilitating the development of AI-driven antibody discovery. The datasets are available at https://datasets.cognanous.com.
Abstract（参考訳）: 抗体は、有害な異物を取り除くために免疫系によって生産される重要なタンパク質であり、ヒト疾患の治療において重要な治療薬となっている。抗体治療の発見を加速するため, 抗体配列を用いた言語モデル構築への関心が高まっている。しかし,ラベル付きデータセットの不足により,事前学習した言語モデルの抗体発見への適用性は十分に評価されていない。 AVIDa-SARS-CoV-2は重症急性呼吸器症候群ウイルス2(SARS-CoV-2)スパイクタンパク質に免疫された2つのアルパサから得られた重鎖抗体(VHH)相互作用の抗原可変ドメインを特徴とするデータセットである。 AVIDa-SARS-CoV-2は、デルタおよびOmicron変異体のような12のSARS-CoV-2変異体への多様なVHH配列の結合または非結合を示すバイナリラベルを含む。さらに,VHHCorpus-2Mは,200万以上のVHH配列を含む,抗体言語モデルの事前学習データセットである。 VHHCorpus-2Mおよび既存の一般タンパク質および抗体特異的言語モデルを用いたVHHBERTを用いたSARS-CoV-2-VHH結合予測のためのベンチマーク結果を報告する。これらの結果は,AVIDa-SARS-CoV-2が結合予測のための抗体言語モデルの表現能力を評価するための貴重なベンチマークを提供し,AI駆動型抗体発見の開発を容易にすることを確認する。データセットはhttps://datasets.cognanous.comで公開されている。

関連論文リスト

AbAffinity: A Large Language Model for Predicting Antibody Binding Affinity against SARS-CoV-2 [0.0]
機械学習ベースの抗体デザインは、感染症に対処する最も有望なアプローチの1つとして浮上している。抗体が抗原に結合する能力(結合親和性と呼ばれる)は、中和抗体を設計する上で最も重要な性質の1つである。本研究では,ターゲットペプチドに対する抗体の結合親和性を正確に予測できる新しい大規模言語モデルであるAb-Affinityを紹介する。
論文参考訳（メタデータ） (2026-03-04T18:09:10Z)
Mitigating the Antigenic Data Bottleneck: Semi-supervised Learning with Protein Language Models for Influenza A Surveillance [0.0]
A型インフルエンザウイルス(IAV)は、ワクチンの頻繁な更新を必要とするペースで抗原的に進化する。ゲノムデータは利用可能な表現型ラベルを大幅に上回り、従来の教師付きモデルの有効性を制限する。我々は,ラベル付きデータが不足している場合でも,事前学習されたタンパク質言語モデル(PLM)と半教師付き学習(SSL)を組み合わせることで,高い予測精度を維持することができると仮定する。
論文参考訳（メタデータ） (2025-12-04T19:44:41Z)
ABConformer: Physics-inspired Sliding Attention for Antibody-Antigen Interface Prediction [3.947298454012977]
ABCONFORMERは,バイオシーケンスの局所的特徴とグローバル的特徴の両方をキャプチャする,Conformerのバックボーンに基づくモデルである。 ABCONFORMERは、抗体と配列が与えられたパラトープと抗原を正確に予測し、抗体情報なしで抗原上のパンエピトープを予測する。
論文参考訳（メタデータ） (2025-09-27T11:12:04Z)
Adaptable Cardiovascular Disease Risk Prediction from Heterogeneous Data using Large Language Models [70.64969663547703]
AdaCVDは、英国バイオバンクから50万人以上の参加者を対象に、大規模な言語モデルに基づいて構築された適応可能なCVDリスク予測フレームワークである。包括的かつ可変的な患者情報を柔軟に取り込み、構造化データと非構造化テキストの両方をシームレスに統合し、最小限の追加データを使用して新規患者の集団に迅速に適応する。
論文参考訳（メタデータ） (2025-05-30T14:42:02Z)
Leveraging Large Language Models to Predict Antibody Biological Activity Against Influenza A Hemagglutinin [0.15547733154162566]
インフルエンザA型ヘマグルチニン(HA)抗原に対する抗体の結合および受容体遮断活性を予測するためのAIモデルを開発した。 AUROC $geq$0.91, AUROC $geq$0.91, AUROC for unseen HAs。
論文参考訳（メタデータ） (2025-02-02T06:48:45Z)
Relation-Aware Equivariant Graph Networks for Epitope-Unknown Antibody Design and Specificity Optimization [61.06622479173572]
本稿では,抗原特異的CDRの構造と共同設計配列に対する抗原抗体相互作用をモデル化するRAADフレームワークを提案する。さらに, 抗体特異度をよりよく測定し, 抗体特異度を最適化するコントラスト特異的エンハンス制約を開発するための新しい評価指標を提案する。
論文参考訳（メタデータ） (2024-12-14T03:00:44Z)
AVIDa-hIL6: A Large-Scale VHH Dataset Produced from an Immunized Alpaca for Predicting Antigen-Antibody Interactions [1.1381826108737396]
重鎖抗体(VHHs)の変異領域における抗原と抗体の相互作用を予測するための大規模データセットを開発した。 AVIDa-hIL6は、アミノ酸配列と573,891の抗原-VHHペアを含む。機械学習モデルを用いたAVIDa-hIL6のベンチマーク結果について報告する。
論文参考訳（メタデータ） (2023-06-06T00:42:36Z)
Vaxformer: Antigenicity-controlled Transformer for Vaccine Design Against SARS-CoV-2 [0.6850683267295248]
本研究では,Vaxformerと呼ばれる新しい条件付きタンパク質言語モデルアーキテクチャを提案する。 Vaxformerは天然の抗原性制御型SARS-CoV-2スパイクタンパク質を産生するように設計されている。
論文参考訳（メタデータ） (2023-05-18T13:36:57Z)
xTrimoABFold: De novo Antibody Structure Prediction without MSA [77.47606749555686]
我々は、抗体配列から抗体構造を予測するために、xTrimoABFoldという新しいモデルを開発した。 CDRにおけるドメイン特異的焦点損失のアンサンブル損失とフレーム整合点損失を最小化することにより,PDBの抗体構造をエンドツーエンドにトレーニングした。
論文参考訳（メタデータ） (2022-11-30T09:26:08Z)
Incorporating Pre-training Paradigm for Antibody Sequence-Structure Co-design [134.65287929316673]
深層学習に基づく計算抗体の設計は、人間の経験を補完する可能性のあるデータから自動的に抗体パターンをマイニングするので、注目を集めている。計算手法は高品質な抗体構造データに大きく依存しており、非常に限定的である。幸いなことに、CDRをモデル化し、構造データへの依存を軽減するために有効な抗体の配列データが多数存在する。
論文参考訳（メタデータ） (2022-10-26T15:31:36Z)
Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文参考訳（メタデータ） (2022-10-05T20:44:55Z)
Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文参考訳（メタデータ） (2022-07-18T19:16:56Z)
Accelerating Inhibitor Discovery for Multiple SARS-CoV-2 Targets with a Single, Sequence-Guided Deep Generative Framework [47.14853881703749]
我々は、新規な薬物様阻害剤分子の発見に向けた、単一の深層生成機構の広範な有用性を実証する。このフレームワークは、ターゲット認識設計を行うために、生成モデルから新規分子をターゲットシーケンス条件でサンプリングする。最も強力なスパイクRBD阻害剤は、SARS-CoV-2変異株に対して幅広いスペクトル活性を有する稀な非共有結合型抗ウイルス剤として出現した。
論文参考訳（メタデータ） (2022-04-19T17:59:46Z)
Using Deep Learning Sequence Models to Identify SARS-CoV-2 Divergence [1.9573380763700707]
SARS-CoV-2は上層呼吸器系RNAウイルスで、2021年5月時点で300万人以上が死亡し、全世界で1億5000万人以上が感染している。本稿では、繰り返しおよび畳み込み単位を利用してスパイクタンパク質のアミノ酸配列を取り込み、対応するクレードを分類するニューラルネットワークモデルを提案する。
論文参考訳（メタデータ） (2021-11-12T07:52:11Z)
DEEMD: Drug Efficacy Estimation against SARS-CoV-2 based on cell Morphology with Deep multiple instance learning [8.716655008588361]
sars-cov-2に対する臨床応用に有効な化合物の同定を促進する。 deemdは、複数のインスタンス学習フレームワークでディープニューラルネットワークモデルを使用する計算パイプラインである。 DEEMDはRemdesivirやAloxistatinなどのSARS-CoV-2阻害剤を同定し、我々のアプローチの有効性を裏付ける。
論文参考訳（メタデータ） (2021-05-10T20:38:34Z)
CovidDeep: SARS-CoV-2/COVID-19 Test Based on Wearable Medical Sensors and Efficient Neural Networks [51.589769497681175]
新型コロナウイルス(SARS-CoV-2)がパンデミックを引き起こしている。 SARS-CoV-2の逆転写-ポリメラーゼ連鎖反応に基づく現在の試験体制は、試験要求に追いついていない。我々は,効率的なDNNと市販のWMSを組み合わせたCovidDeepというフレームワークを提案する。
論文参考訳（メタデータ） (2020-07-20T21:47:28Z)
PaccMann$^{RL}$ on SARS-CoV-2: Designing antiviral candidates with conditional generative models [2.0750380105212116]
新型コロナウイルス(COVID-19)の世界的なパンデミックへの急速な発展に伴い、世界中の科学者が、効果的な抗ウイルス治療薬を必死に探している。タンパク質標的に適合した抗ウイルス候補薬の条件付きデノボ設計のための深層学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-05-27T11:30:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。