論文の概要: RXNRECer Enables Fine-grained Enzymatic Function Annotation through Active Learning and Protein Language Models
- arxiv url: http://arxiv.org/abs/2603.12694v1
- Date: Fri, 13 Mar 2026 06:20:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.937972
- Title: RXNRECer Enables Fine-grained Enzymatic Function Annotation through Active Learning and Protein Language Models
- Title(参考訳): RXNRECerは、アクティブラーニングとタンパク質言語モデルによるきめ細かい酵素機能アノテーションを可能にする
- Authors: Zhenkun Shi, Jun Zhu, Dehang Wang, BoYu Chen, Qianqian Yuan, Zhitao Mao, Fan Wei, Weining Wu, Xiaoping Liao, Hongwu Ma,
- Abstract要約: RXNRECerは変換器をベースとしたアンサンブルフレームワークで、EC番号に依存しない酵素触媒反応を直接予測する。
タンパク質言語モデリングとアクティブラーニングを統合して、高レベルのシーケンスセマンティクスときめ細かい変換パターンの両方をキャプチャする。
- 参考スコア(独自算出の注目度): 20.176405299884824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key challenge in enzyme annotation is identifying the biochemical reactions catalyzed by proteins. Most existing methods rely on Enzyme Commission (EC) numbers as intermediaries: they first predict an EC number and then retrieve the associated reactions. This indirect strategy introduces ambiguity due to the complex many-to-many mappings among proteins, EC numbers, and reactions, and is further complicated by frequent updates to EC numbers and inconsistencies across databases. To address these challenges, we present RXNRECer, a transformer-based ensemble framework that directly predicts enzyme-catalyzed reactions without relying on EC numbers. It integrates protein language modeling and active learning to capture both high-level sequence semantics and fine-grained transformation patterns. Evaluations on curated cross-validation and temporal test sets demonstrate consistent improvements over six EC-based baselines, with gains of 16.54% in F1 score and 15.43% in accuracy. Beyond accuracy gains, the framework offers clear advantages for downstream applications, including scalable proteome-wide reaction annotation, enhanced specificity in refining generic reaction schemas, systematic annotation of previously uncurated proteins, and reliable identification of enzyme promiscuity. By incorporating large language models, it also provides interpretable rationales for predictions. These capabilities make RXNRECer a robust and versatile solution for EC-free, fine-grained enzyme function prediction, with potential applications across multiple areas of enzyme research and industrial applications.
- Abstract(参考訳): 酵素アノテーションにおける重要な課題は、タンパク質によって触媒される生化学反応を同定することである。
既存のほとんどのメソッドは、中間体として酵素委員会(EC)番号に依存しており、まずEC番号を予測し、関連する反応を検索する。
この間接戦略は、タンパク質、EC番号、反応の複雑な多対多マッピングによる曖昧さを導入し、EC番号の頻繁な更新とデータベース間の不整合によりさらに複雑になる。
これらの課題に対処するために, 酵素触媒反応を直接予測する変換器ベースのアンサンブルフレームワークであるRXNRECerを提案する。
タンパク質言語モデリングとアクティブラーニングを統合して、高レベルのシーケンスセマンティクスときめ細かい変換パターンの両方をキャプチャする。
キュレートされたクロスバリデーションと時間的テストセットの評価は、6つのECベースのベースラインに対して一貫した改善を示し、F1スコアは16.54%、精度は15.43%だった。
このフレームワークは、精度の向上以外にも、スケーラブルなプロテオームワイドな反応アノテーション、汎用反応スキーマの精細化における特異性の向上、これまで未処理であったタンパク質の体系的アノテーション、酵素プロミスクオリティの信頼性の高い同定など、下流アプリケーションに明確な利点を提供する。
大規模な言語モデルを組み込むことで、予測に対する解釈可能な合理性も提供する。
これらの能力により、RXNRECerはECフリーできめ細かい酵素機能予測のための堅牢で汎用的なソリューションとなり、酵素研究や工業用途の様々な分野に応用できる可能性がある。
関連論文リスト
- Multimodal Protein Language Models for Enzyme Kinetic Parameters: From Substrate Recognition to Conformational Adaptation [12.729882993671106]
酵素の速度論的パラメータの予測は、酵素が特定の基質をいかに効率的に触媒するかを定量化する。
多くの学習パイプラインは、このプロセスを酵素と基質間の静的な互換性問題に単純化する。
本稿では,タンパク質言語モデルへの微調整により,分子間情報を注入するERBA(Enzyme-Reaction Bridging Adapter)を提案する。
論文 参考訳(メタデータ) (2026-03-13T09:45:41Z) - Self Distillation Fine-Tuning of Protein Language Models Improves Versatility in Protein Design [61.2846583160056]
Supervised Fine-tuning (SFT) は、大規模言語モデルを特殊なドメインに適応するための標準的なアプローチである。
これは、高品質なアノテートされたデータは、自然言語よりもタンパク質の入手がはるかに難しいためである。
生成したタンパク質配列の忠実度,信頼性,新規性を改善するために設計された,PLMの高速SFTのための簡易かつ汎用的なレシピを提案する。
論文 参考訳(メタデータ) (2025-12-10T05:34:47Z) - Fused Gromov-Wasserstein Contrastive Learning for Effective Enzyme-Reaction Screening [32.25999474073762]
FGW-CLIPはGromov-Wasserstein距離の最適化に基づくコントラスト学習フレームワークである。
FGW-CLIPは、最大の酵素反応ベンチマークであるReactZymeの3つの分割すべてで一貫してパフォーマンスが向上している。
これらの結果は、FGW-CLIPを、複雑な生化学的条件下での酵素発見のための有望なフレームワークとして位置づけた。
論文 参考訳(メタデータ) (2025-12-09T11:49:24Z) - Multimodal Regression for Enzyme Turnover Rates Prediction [57.60697333734054]
本稿では,酵素配列,基質構造,環境因子を統合することで,酵素の回転率を予測する枠組みを提案する。
我々のモデルは、事前訓練された言語モデルと畳み込みニューラルネットワークを組み合わせて、タンパク質配列から特徴を抽出する。
我々は、Kolmogorov-Arnold Networksを介して、酵素の回転率を管理する数学的公式を明示的に学習するために、シンボリックレグレッションを利用する。
論文 参考訳(メタデータ) (2025-09-15T11:07:26Z) - Driving Accurate Allergen Prediction with Protein Language Models and Generalization-Focused Evaluation [4.578214567090719]
アレルギーは通常、有害な免疫反応を引き起こすタンパク質であり、公衆衛生上の大きな課題である。
本稿では,100ビリオンパラメータxTrimoPGLMタンパク質言語モデルを利用する計算フレームワークであるApplmを紹介する。
Applmは、難易度の高い現実のシナリオによく似たタスクセットにおいて、7つの最先端メソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2025-08-14T11:30:20Z) - OmniESI: A unified framework for enzyme-substrate interaction prediction with progressive conditional deep learning [46.402707495664174]
条件付き深層学習による酵素-基質相互作用予測のための2段階プログレッシブフレームワークであるOmniESIを導入する。
我々は,OmniESIが最先端の特殊手法よりも優れた性能を実現していることを示す。
全体として、OmniESIは酵素-基質相互作用の統一的な予測手法である。
論文 参考訳(メタデータ) (2025-06-22T09:40:40Z) - Interpretable Enzyme Function Prediction via Residue-Level Detection [58.30647671797602]
本稿では,酵素機能予測のための注意に基づくフレームワークであるProtDETRを提案する。
学習可能な関数クエリのセットを使用して、残差レベルの一連の特徴から異なるローカル表現を適応的に抽出する。
ProtDETRは、既存のディープラーニングベースの酵素機能予測法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-01-10T01:02:43Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - ECRECer: Enzyme Commission Number Recommendation and Benchmarking based
on Multiagent Dual-core Learning [1.4114970711442507]
ECRECerは,新しいディープラーニング技術に基づいて,EC数値を正確に予測するクラウドプラットフォームである。
ECRECerを構築するために、異なるタンパク質表現法を評価し、タンパク質配列の埋め込みにタンパク質言語モデルを採用する。
ECRECerは最高のパフォーマンスを提供し、正確さとF1スコアをそれぞれ70%、最先端よりも20%向上させる。
論文 参考訳(メタデータ) (2022-02-08T04:00:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。