論文の概要: VenusX: Unlocking Fine-Grained Functional Understanding of Proteins
- arxiv url: http://arxiv.org/abs/2505.11812v1
- Date: Sat, 17 May 2025 03:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.862936
- Title: VenusX: Unlocking Fine-Grained Functional Understanding of Proteins
- Title(参考訳): VenusX:タンパク質の微細な機能的理解を解き放つ
- Authors: Yang Tan, Wenrui Gou, Bozitao Zhong, Liang Hong, Huiqun Yu, Bingxin Zhou,
- Abstract要約: VenusXは、微細な機能アノテーションと関数ベースのタンパク質ペアリングのための、残基、フラグメント、ドメインレベルでの最初の大規模なベンチマークである。
VenusXは、重要なアクティブサイト、バインディングサイト、保存されたサイトモチーフ、ドメイン、ペアワイズを含む3つの主要なタスクカテゴリで構成されている。
本ベンチマークでは,流通シナリオとアウト・オブ・ディストリビューションシナリオの両方において,モデル性能の総合評価を可能にする。
- 参考スコア(独自算出の注目度): 3.9151216020893544
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep learning models have driven significant progress in predicting protein function and interactions at the protein level. While these advancements have been invaluable for many biological applications such as enzyme engineering and function annotation, a more detailed perspective is essential for understanding protein functional mechanisms and evaluating the biological knowledge captured by models. To address this demand, we introduce VenusX, the first large-scale benchmark for fine-grained functional annotation and function-based protein pairing at the residue, fragment, and domain levels. VenusX comprises three major task categories across six types of annotations, including residue-level binary classification, fragment-level multi-class classification, and pairwise functional similarity scoring for identifying critical active sites, binding sites, conserved sites, motifs, domains, and epitopes. The benchmark features over 878,000 samples curated from major open-source databases such as InterPro, BioLiP, and SAbDab. By providing mixed-family and cross-family splits at three sequence identity thresholds, our benchmark enables a comprehensive assessment of model performance on both in-distribution and out-of-distribution scenarios. For baseline evaluation, we assess a diverse set of popular and open-source models, including pre-trained protein language models, sequence-structure hybrids, structure-based methods, and alignment-based techniques. Their performance is reported across all benchmark datasets and evaluation settings using multiple metrics, offering a thorough comparison and a strong foundation for future research. Code and data are publicly available at https://github.com/ai4protein/VenusX.
- Abstract(参考訳): 深層学習モデルはタンパク質機能やタンパク質レベルでの相互作用の予測に大きな進歩をもたらした。
これらの進歩は酵素工学や機能アノテーションなど多くの生物学的応用に有用であるが、タンパク質の機能的メカニズムを理解し、モデルが捉えた生物学的知識を評価するためには、より詳細な視点が不可欠である。
この要求に対処するため、我々はVenusXを紹介した。VenusXは、微細な機能アノテーションと関数ベースのタンパク質ペアリングのための、残基、フラグメント、ドメインレベルでの最初の大規模ベンチマークである。
VenusXは、残基レベルのバイナリ分類、フラグメントレベルのマルチクラス分類、重要な活性部位、結合部位、保存部位、モチーフ、ドメイン、エピトープを識別するためのペアワイズ機能類似度スコアリングを含む6種類のアノテーションの3つの主要なタスクカテゴリで構成されている。
ベンチマークには、InterPro、BioLiP、SAbDabといった主要なオープンソースデータベースから収集された878,000以上のサンプルが含まれている。
本ベンチマークでは,3つのシーケンスの識別しきい値に混合ファミリーとクロスファミリーの分割を提供することで,分布内および分布外の両方のシナリオにおけるモデル性能の包括的評価を可能にする。
ベースライン評価では,事前学習されたタンパク質言語モデル,配列構造ハイブリッド,構造に基づく手法,アライメントに基づく手法など,多種多様な人気およびオープンソースモデルの評価を行う。
それらのパフォーマンスは、複数のメトリクスを使用して、すべてのベンチマークデータセットと評価設定で報告され、徹底的な比較と将来の研究のための強力な基盤を提供する。
コードとデータはhttps://github.com/ai4oprotein/VenusXで公開されている。
関連論文リスト
- Multi-Scale Representation Learning for Protein Fitness Prediction [31.735234482320283]
これまでの手法は主に、巨大でラベルなしのタンパク質配列や構造データセットに基づいて訓練された自己教師型モデルに依存してきた。
本稿では,タンパク質の機能を統合する新しいマルチモーダル表現学習フレームワークであるSequence-Structure-Surface Fitness (S3F)モデルを紹介する。
提案手法は,タンパク質言語モデルからの配列表現と,タンパク質のバックボーンと詳細な表面トポロジーをコードするGeometric Vector Perceptronネットワークを組み合わせる。
論文 参考訳(メタデータ) (2024-12-02T04:28:10Z) - ProteinBench: A Holistic Evaluation of Protein Foundation Models [53.59325047872512]
本稿では,タンパク質基盤モデルのための総合評価フレームワークであるProteinBenchを紹介する。
本研究のアプローチは, タンパク質ドメインにおける課題を包括的に包括するタスクの分類学的分類, (ii) 品質, 新規性, 多様性, 堅牢性, および (iii) 様々なユーザ目標から詳細な分析を行い, モデルパフォーマンスの全体的視点を提供する,4つの重要な側面にわたるパフォーマンスを評価するマルチメトリック評価アプローチからなる。
論文 参考訳(メタデータ) (2024-09-10T06:52:33Z) - Autoregressive Enzyme Function Prediction with Multi-scale Multi-modality Fusion [11.278610817877578]
MAPredは、タンパク質のEC数を自動回帰予測するために設計された、新しいマルチモダリティおよびマルチスケールモデルである。
MAPredは、タンパク質の一次アミノ酸配列と3Dトークンの両方を統合し、包括的なタンパク質の特徴を捉えるために二重経路アプローチを用いる。
New-392、Price、New-815を含むベンチマークデータセットの評価は、我々の手法が既存のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2024-08-11T08:28:43Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - UniCell: Universal Cell Nucleus Classification via Prompt Learning [76.11864242047074]
ユニバーサル細胞核分類フレームワーク(UniCell)を提案する。
異なるデータセットドメインから対応する病理画像のカテゴリを均一に予測するために、新しいプロンプト学習機構を採用している。
特に,本フレームワークでは,原子核検出と分類のためのエンドツーエンドアーキテクチャを採用し,フレキシブルな予測ヘッドを用いて様々なデータセットを適応する。
論文 参考訳(メタデータ) (2024-02-20T11:50:27Z) - Deep Learning Methods for Protein Family Classification on PDB
Sequencing Data [0.0]
本稿では,新たな双方向LSTMや畳み込みモデルなどのディープラーニングフレームワークの性能を,広く利用可能なシークエンシングデータ上で実証し比較する。
我々のディープラーニングモデルは従来の機械学習手法よりも優れた性能を示し、畳み込みアーキテクチャは最も印象的な推論性能を提供する。
論文 参考訳(メタデータ) (2022-07-14T06:11:32Z) - Multi-Scale Representation Learning on Proteins [78.31410227443102]
本稿では,タンパク質HoloProtのマルチスケールグラフ構築について紹介する。
表面はタンパク質の粗い詳細を捉え、配列は一次成分であり、構造はより微細な詳細を捉えている。
グラフエンコーダは、各レベルが下のレベル(s)からそのレベルでのグラフとエンコーディングを統合することで、マルチスケール表現を学習する。
論文 参考訳(メタデータ) (2022-04-04T08:29:17Z) - PersGNN: Applying Topological Data Analysis and Geometric Deep Learning
to Structure-Based Protein Function Prediction [0.07340017786387766]
本研究では,タンパク質構造を分離し,タンパク質データバンク内のタンパク質の機能的アノテーションを作成する。
本稿では,グラフ表現学習とトポロジカルデータ解析を組み合わせた,エンドツーエンドのトレーニング可能なディープラーニングモデルPersGNNを提案する。
論文 参考訳(メタデータ) (2020-10-30T02:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。