論文の概要: AntigenLM: Structure-Aware DNA Language Modeling for Influenza
- arxiv url: http://arxiv.org/abs/2602.09067v1
- Date: Mon, 09 Feb 2026 08:52:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.171126
- Title: AntigenLM: Structure-Aware DNA Language Modeling for Influenza
- Title(参考訳): AntigenLM: インフルエンザのDNA言語モデリング
- Authors: Yue Pei, Xuebin Chi, Yu Kang,
- Abstract要約: インフルエンザゲノムを前訓練した遺伝子DNAモデルであるAntigenLMについて述べる。
抗原LMは、訓練中に見えないものを含む、地域やサブタイプにわたる将来の抗原変異を正確に予測する。
また、ほぼ完全なサブタイプ分類も達成している。
- 参考スコア(独自算出の注目度): 5.938702748853349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models have advanced sequence analysis, yet DNA foundation models often lag behind task-specific methods for unclear reasons. We present AntigenLM, a generative DNA language model pretrained on influenza genomes with intact, aligned functional units. This structure-aware pretraining enables AntigenLM to capture evolutionary constraints and generalize across tasks. Fine-tuned on time-series hemagglutinin (HA) and neuraminidase (NA) sequences, AntigenLM accurately forecasts future antigenic variants across regions and subtypes, including those unseen during training, outperforming phylogenetic and evolution-based models. It also achieves near-perfect subtype classification. Ablation studies show that disrupting genomic structure through fragmentation or shuffling severely degrades performance, revealing the importance of preserving functional-unit integrity in DNA language modeling. AntigenLM thus provides both a powerful framework for antigen evolution prediction and a general principle for building biologically grounded DNA foundation models.
- Abstract(参考訳): 言語モデルには高度なシーケンス解析があるが、DNA基盤モデルは不明確な理由でタスク固有の手法に遅れることが多い。
インフルエンザゲノムを前訓練した遺伝子DNAモデルであるAntigenLMについて述べる。
この構造対応事前学習により、AntgenLMは進化的制約を捕捉し、タスクをまたいで一般化することができる。
時系列ヘマグルチニン(HA)およびノイラミニダーゼ(NA)配列を微調整し、AntgenLMは、訓練中に見えないものを含む領域やサブタイプにわたる将来の抗原変異を正確に予測し、系統学的および進化的モデルを上回る。
また、ほぼ完全なサブタイプ分類も達成している。
アブレーション研究では、断片化やシャッフルによるゲノム構造の破壊がパフォーマンスを著しく低下させ、DNA言語モデリングにおける機能単位の整合性を維持することが重要であることが示されている。
これにより、抗原進化予測のための強力なフレームワークと、生物学的に基底となるDNA基盤モデルを構築するための一般的な原理の両方を提供する。
関連論文リスト
- Exploring Protein Language Model Architecture-Induced Biases for Antibody Comprehension [24.38887522188594]
タンパク質言語モデル(PLM)のアーキテクチャ選択が,抗体配列の特徴や機能を理解する能力にどのように影響するかを検討する。
汎用言語モデル (GPT-2) のベースラインとして, 3つの最先端PLM-AntiBERTa, BioBERT, ESM2の評価を行った。
以上の結果から, PLMの分類精度は高いが, V遺伝子利用, 体性多変量パターン, アイソタイプ情報などの生物学的特徴の把握には, 明確なバイアスが生じることが示唆された。
論文 参考訳(メタデータ) (2025-12-10T18:22:51Z) - A Phylogenetic Approach to Genomic Language Modeling [0.2912705470788796]
系統樹上のヌクレオチド進化を明示的にモデル化するgLMを訓練するための新しいフレームワークを提案する。
本手法では,トレーニング中の損失関数にアライメントを組み込むことで予測を行う。
我々はこの枠組みを適用し、単一シーケンスのみから機能的に破壊的な変異を予測するモデルであるPhyloGPNを訓練した。
論文 参考訳(メタデータ) (2025-03-04T06:53:03Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - S$^2$ALM: Sequence-Structure Pre-trained Large Language Model for Comprehensive Antibody Representation Learning [8.059724314850799]
抗体は、特定の抗原に正確かつ強力な結合を通じて健康を守り、新型コロナウイルスを含む多くの疾患の治療に有望な治療効果を示す。
バイオメディカル言語モデルの最近の進歩は、複雑な生物学的構造や機能を理解する大きな可能性を示している。
本稿では,1つの総合的抗体基盤モデルにおいて,包括的および構造的情報を組み合わせたシーケンス構造型多段階事前訓練抗体言語モデル(S$2$ALM)を提案する。
論文 参考訳(メタデータ) (2024-11-20T14:24:26Z) - Incorporating Pre-training Paradigm for Antibody Sequence-Structure
Co-design [134.65287929316673]
深層学習に基づく計算抗体の設計は、人間の経験を補完する可能性のあるデータから自動的に抗体パターンをマイニングするので、注目を集めている。
計算手法は高品質な抗体構造データに大きく依存しており、非常に限定的である。
幸いなことに、CDRをモデル化し、構造データへの依存を軽減するために有効な抗体の配列データが多数存在する。
論文 参考訳(メタデータ) (2022-10-26T15:31:36Z) - Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文 参考訳(メタデータ) (2022-10-05T20:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。