論文の概要: Exploring Protein Language Model Architecture-Induced Biases for Antibody Comprehension
- arxiv url: http://arxiv.org/abs/2512.09894v1
- Date: Wed, 10 Dec 2025 18:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.632013
- Title: Exploring Protein Language Model Architecture-Induced Biases for Antibody Comprehension
- Title(参考訳): 抗体理解のためのタンパク質言語モデルによるビアーゼの探索
- Authors: Mengren, Liu, Yixiang Zhang, Yiming, Zhang,
- Abstract要約: タンパク質言語モデル(PLM)のアーキテクチャ選択が,抗体配列の特徴や機能を理解する能力にどのように影響するかを検討する。
汎用言語モデル (GPT-2) のベースラインとして, 3つの最先端PLM-AntiBERTa, BioBERT, ESM2の評価を行った。
以上の結果から, PLMの分類精度は高いが, V遺伝子利用, 体性多変量パターン, アイソタイプ情報などの生物学的特徴の把握には, 明確なバイアスが生じることが示唆された。
- 参考スコア(独自算出の注目度): 24.38887522188594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in protein language models (PLMs) have demonstrated remarkable capabilities in understanding protein sequences. However, the extent to which different model architectures capture antibody-specific biological properties remains unexplored. In this work, we systematically investigate how architectural choices in PLMs influence their ability to comprehend antibody sequence characteristics and functions. We evaluate three state-of-the-art PLMs-AntiBERTa, BioBERT, and ESM2--against a general-purpose language model (GPT-2) baseline on antibody target specificity prediction tasks. Our results demonstrate that while all PLMs achieve high classification accuracy, they exhibit distinct biases in capturing biological features such as V gene usage, somatic hypermutation patterns, and isotype information. Through attention attribution analysis, we show that antibody-specific models like AntiBERTa naturally learn to focus on complementarity-determining regions (CDRs), while general protein models benefit significantly from explicit CDR-focused training strategies. These findings provide insights into the relationship between model architecture and biological feature extraction, offering valuable guidance for future PLM development in computational antibody design.
- Abstract(参考訳): タンパク質言語モデル(PLM)の最近の進歩は、タンパク質配列の理解において顕著な能力を示している。
しかし、異なるモデルアーキテクチャーが抗体特有の生物学的性質をどの程度捉えているかは未解明のままである。
本研究では, PLMのアーキテクチャ選択が, 抗体配列の特徴や機能を理解する能力にどのように影響するかを系統的に検討する。
汎用言語モデル (GPT-2) のベースラインとして, 3つの最先端PLM-AntiBERTa, BioBERT, ESM2の評価を行った。
以上の結果から, PLMの分類精度は高いが, V遺伝子利用, 体性多変量パターン, アイソタイプ情報などの生物学的特徴の把握には, 明確なバイアスが生じることが示唆された。
注意喚起分析により、AntiBERTaのような抗体特異的モデルが自然に相補性決定領域(CDR)に焦点をあてることが示され、一方、一般的なタンパク質モデルは明らかにCDRに焦点を当てたトレーニング戦略の恩恵を受けることが示されている。
これらの知見は, モデルアーキテクチャと生物学的特徴抽出の関係を考察し, 計算抗体設計における将来のPLM開発のための貴重なガイダンスを提供する。
関連論文リスト
- Machine learning approaches for interpretable antibody property prediction using structural data [1.406995367117218]
抗体配列、構造、機能の関係を理解することは、抗体ベースの治療法や研究ツールの設計に不可欠である。
機械学習モデルは、主に、抗体特性を予測するために、シーケンス情報への大規模言語モデルの適用に基づいて開発されている。
この章では、(グラフ表現を介して)構造データとニューラルネットワークを統合し、抗体の特性を予測する2つのMLフレームワークについて説明する。
論文 参考訳(メタデータ) (2025-10-28T01:13:09Z) - PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs [88.98041407783502]
PRINGは、タンパク質とタンパク質の相互作用予測をグラフレベルで評価する最初のベンチマークである。
PRINGは、21,484タンパク質と186,818の相互作用からなる高品質な多種PPIネットワークデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-07-07T15:21:05Z) - DISPROTBENCH: A Disorder-Aware, Task-Rich Benchmark for Evaluating Protein Structure Prediction in Realistic Biological Contexts [76.59606029593085]
DisProtBenchは、構造障害および複雑な生物学的条件下でタンパク質構造予測モデル(PSPM)を評価するためのベンチマークである。
DisProtBenchはデータの複雑さ、タスクの多様性、解釈可能性という3つの重要な軸にまたがっている。
その結果,機能的予測障害と相関する低信頼領域を有する障害下でのモデルロバスト性に有意な変動が認められた。
論文 参考訳(メタデータ) (2025-06-18T23:58:22Z) - AbBiBench: A Benchmark for Antibody Binding Affinity Maturation and Design [8.195812610020203]
AbBiBenchは、抗体結合親和性成熟と設計のためのベンチマークフレームワークである。
タンパク質モデルが完全なAb-Ag複合体をどれだけうまくスコアするかを測定することによって、抗体設計の結合電位を評価する。
論文 参考訳(メタデータ) (2025-05-23T21:09:04Z) - S$^2$ALM: Sequence-Structure Pre-trained Large Language Model for Comprehensive Antibody Representation Learning [8.059724314850799]
抗体は、特定の抗原に正確かつ強力な結合を通じて健康を守り、新型コロナウイルスを含む多くの疾患の治療に有望な治療効果を示す。
バイオメディカル言語モデルの最近の進歩は、複雑な生物学的構造や機能を理解する大きな可能性を示している。
本稿では,1つの総合的抗体基盤モデルにおいて,包括的および構造的情報を組み合わせたシーケンス構造型多段階事前訓練抗体言語モデル(S$2$ALM)を提案する。
論文 参考訳(メタデータ) (2024-11-20T14:24:26Z) - xTrimoABFold: De novo Antibody Structure Prediction without MSA [77.47606749555686]
我々は、抗体配列から抗体構造を予測するために、xTrimoABFoldという新しいモデルを開発した。
CDRにおけるドメイン特異的焦点損失のアンサンブル損失とフレーム整合点損失を最小化することにより,PDBの抗体構造をエンドツーエンドにトレーニングした。
論文 参考訳(メタデータ) (2022-11-30T09:26:08Z) - Incorporating Pre-training Paradigm for Antibody Sequence-Structure
Co-design [134.65287929316673]
深層学習に基づく計算抗体の設計は、人間の経験を補完する可能性のあるデータから自動的に抗体パターンをマイニングするので、注目を集めている。
計算手法は高品質な抗体構造データに大きく依存しており、非常に限定的である。
幸いなことに、CDRをモデル化し、構造データへの依存を軽減するために有効な抗体の配列データが多数存在する。
論文 参考訳(メタデータ) (2022-10-26T15:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。