論文の概要: STAR-GO: Improving Protein Function Prediction by Learning to Hierarchically Integrate Ontology-Informed Semantic Embeddings
- arxiv url: http://arxiv.org/abs/2512.05245v1
- Date: Thu, 04 Dec 2025 20:48:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.809018
- Title: STAR-GO: Improving Protein Function Prediction by Learning to Hierarchically Integrate Ontology-Informed Semantic Embeddings
- Title(参考訳): STAR-GO:オントロジーインフォームド・セマンティック・エンベディングを階層的に統合する学習によるタンパク質機能予測の改善
- Authors: Mehmet Efe Akça, Gökçe Uludoğan, Arzucan Özgür, İnci M. Baytaş,
- Abstract要約: STAR-GOはトランスフォーマーベースのフレームワークで、遺伝子オントロジー(GO)用語の意味的特徴と構造的特徴を共同でモデル化する。
最先端性能と優れたゼロショット一般化を実現する。
- 参考スコア(独自算出の注目度): 1.984426513082333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate prediction of protein function is essential for elucidating molecular mechanisms and advancing biological and therapeutic discovery. Yet experimental annotation lags far behind the rapid growth of protein sequence data. Computational approaches address this gap by associating proteins with Gene Ontology (GO) terms, which encode functional knowledge through hierarchical relations and textual definitions. However, existing models often emphasize one modality over the other, limiting their ability to generalize, particularly to unseen or newly introduced GO terms that frequently arise as the ontology evolves, and making the previously trained models outdated. We present STAR-GO, a Transformer-based framework that jointly models the semantic and structural characteristics of GO terms to enhance zero-shot protein function prediction. STAR-GO integrates textual definitions with ontology graph structure to learn unified GO representations, which are processed in hierarchical order to propagate information from general to specific terms. These representations are then aligned with protein sequence embeddings to capture sequence-function relationships. STAR-GO achieves state-of-the-art performance and superior zero-shot generalization, demonstrating the utility of integrating semantics and structure for robust and adaptable protein function prediction. Code is available at https://github.com/boun-tabi-lifelu/stargo.
- Abstract(参考訳): タンパク質機能の正確な予測は、分子機構の解明と生物学的および治療的発見の進展に不可欠である。
しかし、実験的なアノテーションは、タンパク質配列データの急速な成長よりもはるかに遅れている。
計算的アプローチは、タンパク質と遺伝子オントロジー(GO)用語を関連付けることでこのギャップに対処し、階層的関係やテキスト定義を通じて機能的知識を符号化する。
しかし、既存のモデルは、一方のモダリティを他方よりも強調することが多く、特に、オントロジーが進化するにつれてしばしば現れる、目に見えない、あるいは新しく導入されたGO用語に限定し、以前に訓練されたモデルを時代遅れにする。
我々は,GO用語の意味的特徴と構造的特徴を共同でモデル化し,ゼロショットタンパク質の機能予測を強化するトランスフォーマーベースのフレームワークSTAR-GOを提案する。
STAR-GOは、テキスト定義をオントロジーグラフ構造と統合し、汎用から特定の用語に情報を伝達するために階層的に処理される統一GO表現を学習する。
これらの表現は、配列と機能の関係を捉えるために、タンパク質配列の埋め込みと整列される。
STAR-GOは、最先端の性能と優れたゼロショットの一般化を実現し、堅牢で適応可能なタンパク質機能予測のためのセマンティクスと構造を統合することの有用性を実証する。
コードはhttps://github.com/boun-tabi-lifelu/stargo.comで公開されている。
関連論文リスト
- KEPLA: A Knowledge-Enhanced Deep Learning Framework for Accurate Protein-Ligand Binding Affinity Prediction [60.23701115249195]
KEPLAは、遺伝子オントロジーとリガンド特性の事前知識を統合し、予測性能を向上させる新しいディープラーニングフレームワークである。
2つのベンチマークデータセットの実験では、KEPLAは一貫して最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-16T08:02:42Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Multi-Scale Representation Learning for Protein Fitness Prediction [31.735234482320283]
これまでの手法は主に、巨大でラベルなしのタンパク質配列や構造データセットに基づいて訓練された自己教師型モデルに依存してきた。
本稿では,タンパク質の機能を統合する新しいマルチモーダル表現学習フレームワークであるSequence-Structure-Surface Fitness (S3F)モデルを紹介する。
提案手法は,タンパク質言語モデルからの配列表現と,タンパク質のバックボーンと詳細な表面トポロジーをコードするGeometric Vector Perceptronネットワークを組み合わせる。
論文 参考訳(メタデータ) (2024-12-02T04:28:10Z) - ProteinRPN: Towards Accurate Protein Function Prediction with Graph-Based Region Proposals [4.525216077859531]
本稿では,タンパク質機能予測のためのタンパク質領域提案ネットワーク(ProteinRPN)を紹介する。
proteinRPNは、階層型ノードドロッププーリング層を通じて洗練される潜在的な機能領域(アンカー)を識別する。
予測された機能ノードの表現は、注意機構を使用して強化され、グラフマルチセット変換器に入力される。
論文 参考訳(メタデータ) (2024-09-01T04:40:04Z) - ProtFAD: Introducing function-aware domains as implicit modality towards protein function prediction [4.299777426056576]
本稿では,タンパク質の異なる機能を識別するために,機能認識ドメイン表現とドメイン結合型学習戦略を提案する。
提案手法は, 様々なベンチマークにおいて, 最先端の手法よりも大きく, 包括的に優れている。
論文 参考訳(メタデータ) (2024-05-24T02:26:45Z) - DeepGATGO: A Hierarchical Pretraining-Based Graph-Attention Model for
Automatic Protein Function Prediction [4.608328575930055]
自動タンパク質機能予測(AFP)は大規模多ラベル分類問題に分類される。
現在、一般的な手法は主にタンパク質関連情報と遺伝子オントロジー(GO)の用語を組み合わせて、最終的な機能予測を生成する。
本稿では,タンパク質配列とGO項ラベルを階層的に処理するシークエンスベースの階層予測手法であるDeepGATGOを提案する。
論文 参考訳(メタデータ) (2023-07-24T07:01:32Z) - PersGNN: Applying Topological Data Analysis and Geometric Deep Learning
to Structure-Based Protein Function Prediction [0.07340017786387766]
本研究では,タンパク質構造を分離し,タンパク質データバンク内のタンパク質の機能的アノテーションを作成する。
本稿では,グラフ表現学習とトポロジカルデータ解析を組み合わせた,エンドツーエンドのトレーニング可能なディープラーニングモデルPersGNNを提案する。
論文 参考訳(メタデータ) (2020-10-30T02:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。