論文の概要: Mitigating the Antigenic Data Bottleneck: Semi-supervised Learning with Protein Language Models for Influenza A Surveillance
- arxiv url: http://arxiv.org/abs/2512.05222v1
- Date: Thu, 04 Dec 2025 19:44:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.79389
- Title: Mitigating the Antigenic Data Bottleneck: Semi-supervised Learning with Protein Language Models for Influenza A Surveillance
- Title(参考訳): ウイルスAサーベイランスのためのタンパク質言語モデルを用いた半教師付き学習
- Authors: Yanhua Xu,
- Abstract要約: A型インフルエンザウイルス(IAV)は、ワクチンの頻繁な更新を必要とするペースで抗原的に進化する。
ゲノムデータは利用可能な表現型ラベルを大幅に上回り、従来の教師付きモデルの有効性を制限する。
我々は,ラベル付きデータが不足している場合でも,事前学習されたタンパク質言語モデル(PLM)と半教師付き学習(SSL)を組み合わせることで,高い予測精度を維持することができると仮定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Influenza A viruses (IAVs) evolve antigenically at a pace that requires frequent vaccine updates, yet the haemagglutination inhibition (HI) assays used to quantify antigenicity are labor-intensive and unscalable. As a result, genomic data vastly outpace available phenotypic labels, limiting the effectiveness of traditional supervised models. We hypothesize that combining pre-trained Protein Language Models (PLMs) with Semi-Supervised Learning (SSL) can retain high predictive accuracy even when labeled data are scarce. We evaluated two SSL strategies, Self-training and Label Spreading, against fully supervised baselines using four PLM-derived embeddings (ESM-2, ProtVec, ProtT5, ProtBert) applied to haemagglutinin (HA) sequences. A nested cross-validation framework simulated low-label regimes (25%, 50%, 75%, and 100% label availability) across four IAV subtypes (H1N1, H3N2, H5N1, H9N2). SSL consistently improved performance under label scarcity. Self-training with ProtVec produced the largest relative gains, showing that SSL can compensate for lower-resolution representations. ESM-2 remained highly robust, achieving F1 scores above 0.82 with only 25% labeled data, indicating that its embeddings capture key antigenic determinants. While H1N1 and H9N2 were predicted with high accuracy, the hypervariable H3N2 subtype remained challenging, although SSL mitigated the performance decline. These findings demonstrate that integrating PLMs with SSL can address the antigenicity labeling bottleneck and enable more effective use of unlabeled surveillance sequences, supporting rapid variant prioritization and timely vaccine strain selection.
- Abstract(参考訳): インフルエンザAウイルス(IAVs)はワクチンの頻繁な更新を必要とするペースで抗原的に進化するが、抗原を定量化するために用いられるヘマグルチネーション阻害(HI)アッセイは、労働集約的で拡張不能である。
その結果、ゲノムデータは利用可能な表現型ラベルを大きく上回り、従来の教師付きモデルの有効性を制限した。
我々は,ラベル付きデータが不足している場合でも,事前学習されたタンパク質言語モデル(PLM)と半教師付き学習(SSL)を組み合わせることで,高い予測精度を維持することができると仮定する。
PLM由来の4つの埋め込み (ESM-2, ProtVec, ProtT5, ProtBert) をヘマグルチニン (HA) 配列に適用した。
ネストしたクロスバリデーションフレームワークは、4つのIAVサブタイプ(H1N1, H3N2, H5N1, H9N2)で低ラベルレギュレーション(25%, 50%, 75%, 100%ラベルアベイラビリティ)をシミュレートした。
SSLはラベル不足下でのパフォーマンスを継続的に改善した。
ProtVecによる自己学習は、SSLが低解像度の表現を補償できることを示す最も大きな相対的なゲインを生み出した。
ESM-2は非常に頑丈であり、F1スコアは0.82以上、ラベル付きデータは25%に過ぎなかった。
H1N1とH9N2は高い精度で予測されたが、H3N2サブタイプはSSLは性能低下を緩和した。
これらの結果から, PLMsとSSLの統合は, 抗原性ラベル付けのボトルネックに対処し, ラベル付けされていない監視シーケンスをより効果的に利用し, 迅速な変異優先順位付けとワクチン株選択をサポートすることが示唆された。
関連論文リスト
- Open-weight genome language model safeguards: Assessing robustness via adversarial fine-tuning [5.053164256829132]
我々は、最先端のgLMであるEvo 2を評価し、110の有害ヒト感染ウイルスの配列を用いて微調整を行う。
我々は、gLMの安全フレームワークの必要性を強調し、gLMの安全な配置を可能にするために必要な作業の概要を述べる。
論文 参考訳(メタデータ) (2025-11-24T16:46:44Z) - A SARS-CoV-2 Interaction Dataset and VHH Sequence Corpus for Antibody Language Models [0.0]
AVIDa-SARS-CoV-2は重鎖抗体(VHH)相互作用の抗原可変ドメインを特徴とするデータセットである。
抗体言語モデルの事前学習データセットであるVHHCorpus-2Mには200万以上のVHH配列が含まれている。
VHHCorpus-2Mおよび既存の一般タンパク質および抗体特異的言語モデルを用いたVHHBERTを用いたSARS-CoV-2-VHH結合予測のためのベンチマーク結果を報告する。
論文 参考訳(メタデータ) (2024-05-29T04:22:18Z) - Semi-Supervised Class-Agnostic Motion Prediction with Pseudo Label
Regeneration and BEVMix [59.55173022987071]
クラス非依存動作予測のための半教師あり学習の可能性について検討する。
我々のフレームワークは一貫性に基づく自己学習パラダイムを採用しており、ラベルのないデータからモデルを学習することができる。
本手法は,弱さと完全教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-12-13T09:32:50Z) - Revisiting Pretraining for Semi-Supervised Learning in the Low-Label
Regime [15.863530936691157]
半教師付き学習(SSL)は、擬似ラベル付けによって大きなラベル付きデータを活用することでラベル付きデータの欠如に対処する。
近年の研究では、訓練済み重量の微調整(FT)をSSLと組み合わせて課題を緩和し、低ラベル体制においてより優れた結果を主張している。
論文 参考訳(メタデータ) (2022-05-06T03:53:25Z) - Taming Overconfident Prediction on Unlabeled Data from Hindsight [50.9088560433925]
ラベルのないデータに対する予測の不確実性を最小化することは、半教師付き学習において優れた性能を達成するための鍵となる要素である。
本稿では,アダプティブシャーニング(Adaptive Sharpening, ADS)と呼ばれる2つのメカニズムを提案する。
ADSは、プラグインにすることで最先端のSSLメソッドを大幅に改善する。
論文 参考訳(メタデータ) (2021-12-15T15:17:02Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - CovidDeep: SARS-CoV-2/COVID-19 Test Based on Wearable Medical Sensors
and Efficient Neural Networks [51.589769497681175]
新型コロナウイルス(SARS-CoV-2)がパンデミックを引き起こしている。
SARS-CoV-2の逆転写-ポリメラーゼ連鎖反応に基づく現在の試験体制は、試験要求に追いついていない。
我々は,効率的なDNNと市販のWMSを組み合わせたCovidDeepというフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-20T21:47:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。