論文の概要: Driving Accurate Allergen Prediction with Protein Language Models and Generalization-Focused Evaluation
- arxiv url: http://arxiv.org/abs/2508.10541v1
- Date: Thu, 14 Aug 2025 11:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.285686
- Title: Driving Accurate Allergen Prediction with Protein Language Models and Generalization-Focused Evaluation
- Title(参考訳): タンパク質言語モデルによる正確なアレルゲン予測と一般化に基づく評価
- Authors: Brian Shing-Hei Wong, Joshua Mincheol Kim, Sin-Hang Fung, Qing Xiong, Kelvin Fu-Kiu Ao, Junkang Wei, Ran Wang, Dan Michelle Wang, Jingying Zhou, Bo Feng, Alfred Sze-Lok Cheng, Kevin Y. Yip, Stephen Kwok-Wing Tsui, Qin Cao,
- Abstract要約: アレルギーは通常、有害な免疫反応を引き起こすタンパク質であり、公衆衛生上の大きな課題である。
本稿では,100ビリオンパラメータxTrimoPGLMタンパク質言語モデルを利用する計算フレームワークであるApplmを紹介する。
Applmは、難易度の高い現実のシナリオによく似たタスクセットにおいて、7つの最先端メソッドを一貫して上回ります。
- 参考スコア(独自算出の注目度): 4.578214567090719
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Allergens, typically proteins capable of triggering adverse immune responses, represent a significant public health challenge. To accurately identify allergen proteins, we introduce Applm (Allergen Prediction with Protein Language Models), a computational framework that leverages the 100-billion parameter xTrimoPGLM protein language model. We show that Applm consistently outperforms seven state-of-the-art methods in a diverse set of tasks that closely resemble difficult real-world scenarios. These include identifying novel allergens that lack similar examples in the training set, differentiating between allergens and non-allergens among homologs with high sequence similarity, and assessing functional consequences of mutations that create few changes to the protein sequences. Our analysis confirms that xTrimoPGLM, originally trained on one trillion tokens to capture general protein sequence characteristics, is crucial for Applm's performance by detecting important differences among protein sequences. In addition to providing Applm as open-source software, we also provide our carefully curated benchmark datasets to facilitate future research.
- Abstract(参考訳): アレルギーは通常、有害な免疫反応を引き起こすタンパク質であり、公衆衛生上の大きな課題である。
アレルゲンタンパク質を正確に同定するために、100ビリオンパラメータxTrimoPGLMタンパク質言語モデルを利用する計算フレームワークであるApplm(Allergen Prediction with Protein Language Models)を紹介する。
Applmは、難易度の高い現実のシナリオによく似たタスクセットにおいて、7つの最先端メソッドを一貫して上回ります。
これには、トレーニングセットに類似した例を欠く新規なアレルゲンの同定、高い配列類似性を持つホモログ間のアレルゲンと非アレルゲンの区別、タンパク質配列にほとんど変化を起こさない突然変異の機能的結果の評価が含まれる。
解析の結果,xTrimoPGLMはタンパク質配列の特徴を捉えるために1兆個のトークンで訓練されており,タンパク質配列間の重要な相違を検出することにより,Applmの性能向上に不可欠であることが確認された。
Applmをオープンソースソフトウェアとして提供するだけでなく、将来的な研究を促進するために、慎重にキュレートされたベンチマークデータセットも提供しています。
関連論文リスト
- Computational Protein Science in the Era of Large Language Models (LLMs) [54.35488233989787]
計算タンパク質科学(Computational protein science)は、タンパク質配列構造-機能パラダイムにおける知識を明らかにすること、および応用を開発することを目的としている。
最近、言語モデル (Language Models, PLM) は、前例のない言語処理と一般化能力のために、AIのマイルストーンとして登場した。
論文 参考訳(メタデータ) (2025-01-17T16:21:18Z) - ProtCLIP: Function-Informed Protein Multi-Modal Learning [18.61302416993122]
ProtCLIPは,機能認識タンパク質の埋め込みを表現した多モード基盤モデルである。
当社のProtCLIPは,5つのクロスモーダル変換ベンチマークにおいて,平均75%の大幅な改善を実現している。
実験により,タンパク質多量性基盤モデルとしてのProtCLIPの異常なポテンシャルが検証された。
論文 参考訳(メタデータ) (2024-12-28T04:23:47Z) - Clustering for Protein Representation Learning [72.72957540484664]
本稿では,タンパク質の臨界成分を自動的に検出するニューラルネットワーククラスタリングフレームワークを提案する。
我々のフレームワークはタンパク質をグラフとして扱い、各ノードはアミノ酸を表し、各エッジはアミノ酸間の空間的またはシーケンシャルな接続を表す。
タンパク質の折り畳み分類, 酵素反応分類, 遺伝子期予測, 酵素コミッショニング数予測の4つの課題について検討した。
論文 参考訳(メタデータ) (2024-03-30T05:51:09Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Multi-level Protein Representation Learning for Blind Mutational Effect
Prediction [5.207307163958806]
本稿では,タンパク質構造解析のためのシーケンシャルおよび幾何学的アナライザをカスケードする,新しい事前学習フレームワークを提案する。
野生型タンパク質の自然選択をシミュレートすることにより、所望の形質に対する突然変異方向を誘導する。
提案手法は,多種多様な効果予測タスクに対して,パブリックデータベースと2つの新しいデータベースを用いて評価する。
論文 参考訳(メタデータ) (2023-06-08T03:00:50Z) - Retrieved Sequence Augmentation for Protein Representation Learning [40.13920287967866]
本稿では,タンパク質表現学習のための検索シーケンス拡張について,アライメントや前処理を伴わずに導入する。
本モデルでは,新しいタンパク質ドメインに移行し,デノボタンパク質の予測においてMSAトランスフォーマーより優れていることを示す。
我々の研究はタンパク質の予測における大きなギャップを埋め、タンパク質配列を理解するのに必要なドメイン知識の解読に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-24T10:31:45Z) - Tranception: protein fitness prediction with autoregressive transformers
and inference-time retrieval [23.49976148784686]
タンパク質配列のフィットネスランドスケープを正確にモデル化する能力は、幅広い応用に不可欠である。
複数の配列アライメントに基づいて訓練されたタンパク質配列の深い生成モデルが、これらの課題に対処するための最も成功したアプローチである。
多様なファミリーから大量の非整合タンパク質配列を訓練した大規模な言語モデルは、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-05-27T04:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。