論文の概要: NbBench: Benchmarking Language Models for Comprehensive Nanobody Tasks
- arxiv url: http://arxiv.org/abs/2505.02022v1
- Date: Sun, 04 May 2025 08:18:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.385554
- Title: NbBench: Benchmarking Language Models for Comprehensive Nanobody Tasks
- Title(参考訳): NbBench: ナノボディタスクのベンチマーク言語モデル
- Authors: Yiming Zhang, Koji Tsuda,
- Abstract要約: 我々は,ナノボディ表現学習のための最初の総合ベンチマークスイートであるNbBenchを紹介する。
NbBenchは構造アノテーション、バインディング予測、開発可能性評価を含む。
解析の結果,抗体言語モデルでは抗原関連タスクが優れており,熱安定性や親和性などの回帰タスクのパフォーマンスは依然として困難であることが判明した。
- 参考スコア(独自算出の注目度): 6.485214172837228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nanobodies, single-domain antibody fragments derived from camelid heavy-chain-only antibodies, exhibit unique advantages such as compact size, high stability, and strong binding affinity, making them valuable tools in therapeutics and diagnostics. While recent advances in pretrained protein and antibody language models (PPLMs and PALMs) have greatly enhanced biomolecular understanding, nanobody-specific modeling remains underexplored and lacks a unified benchmark. To address this gap, we introduce NbBench, the first comprehensive benchmark suite for nanobody representation learning. Spanning eight biologically meaningful tasks across nine curated datasets, NbBench encompasses structure annotation, binding prediction, and developability assessment. We systematically evaluate eleven representative models--including general-purpose protein LMs, antibody-specific LMs, and nanobody-specific LMs--in a frozen setting. Our analysis reveals that antibody language models excel in antigen-related tasks, while performance on regression tasks such as thermostability and affinity remains challenging across all models. Notably, no single model consistently outperforms others across all tasks. By standardizing datasets, task definitions, and evaluation protocols, NbBench offers a reproducible foundation for assessing and advancing nanobody modeling.
- Abstract(参考訳): ラクダ型重鎖抗体由来の単ドメイン抗体フラグメントであるナノ抗体は、コンパクトサイズ、高い安定性、強い結合親和性などの独特な利点を示し、治療や診断に有用である。
タンパク質および抗体言語モデル(PPLM、PALM)の最近の進歩は、生体分子の理解を著しく向上させているが、ナノボディ特異的なモデリングは未発見であり、統一されたベンチマークが欠如している。
このギャップに対処するために、ナノボディ表現学習のための最初の総合的なベンチマークスイートであるNbBenchを紹介する。
NbBenchは、9つのキュレートされたデータセットにまたがって、生物学的に意味のある8つのタスクを拡大し、構造アノテーション、バインディング予測、開発可能性評価を含んでいる。
凍結条件下で, 汎用タンパク質LM, 抗体特異的LM, ナノボディ特異的LMを含む11種類の代表モデルを系統的に評価した。
解析の結果,抗体言語モデルでは抗原関連タスクが優れており,熱安定性や親和性などの回帰タスクのパフォーマンスは,すべてのモデルで依然として困難であることが判明した。
特に、ひとつのモデルがすべてのタスクで他のモデルより一貫して優れています。
NbBenchはデータセット、タスク定義、評価プロトコルを標準化することにより、ナノボディモデリングの評価と進歩のための再現可能な基盤を提供する。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - S$^2$ALM: Sequence-Structure Pre-trained Large Language Model for Comprehensive Antibody Representation Learning [8.059724314850799]
抗体は、特定の抗原に正確かつ強力な結合を通じて健康を守り、新型コロナウイルスを含む多くの疾患の治療に有望な治療効果を示す。
バイオメディカル言語モデルの最近の進歩は、複雑な生物学的構造や機能を理解する大きな可能性を示している。
本稿では,1つの総合的抗体基盤モデルにおいて,包括的および構造的情報を組み合わせたシーケンス構造型多段階事前訓練抗体言語モデル(S$2$ALM)を提案する。
論文 参考訳(メタデータ) (2024-11-20T14:24:26Z) - Multiview Random Vector Functional Link Network for Predicting DNA-Binding Proteins [0.0]
本稿では,マルチビュー学習とニューラルネットワークアーキテクチャを融合したMvRVFL(Multiview random vector functional link)ネットワークを提案する。
提案したMvRVFLモデルは、後期および初期融合の利点を組み合わせ、異なるビューをまたいだ明確な正規化パラメータを可能にする。
DBPデータセット上で提案したMvRVFLモデルの性能はベースラインモデルよりも優れており、その優れた効果を示している。
論文 参考訳(メタデータ) (2024-09-04T10:14:17Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Target-aware Variational Auto-encoders for Ligand Generation with
Multimodal Protein Representation Learning [2.01243755755303]
ターゲット認識型自動エンコーダであるTargetVAEを導入し、任意のタンパク質標的に対する高い結合親和性で生成する。
これは、タンパク質の異なる表現を単一のモデルに統一する最初の試みであり、これは我々がタンパク質マルチモーダルネットワーク(PMN)と呼ぶ。
論文 参考訳(メタデータ) (2023-08-02T12:08:17Z) - Sequence-Based Nanobody-Antigen Binding Prediction [1.7284653203366596]
ナノボディーの生産における重要な課題は、ほとんどの抗原に対してナノボディーが利用できないことである。
本研究は,シーケンスデータのみに基づいて,ナノボディ・アンティジェン結合を予測する機械学習手法を開発することを目的とする。
論文 参考訳(メタデータ) (2023-07-15T02:00:19Z) - Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文 参考訳(メタデータ) (2022-10-05T20:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。