論文の概要: OntoProtein: Protein Pretraining With Gene Ontology Embedding
- arxiv url: http://arxiv.org/abs/2201.11147v1
- Date: Sun, 23 Jan 2022 14:49:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 14:01:45.099527
- Title: OntoProtein: Protein Pretraining With Gene Ontology Embedding
- Title(参考訳): OntoProtein:遺伝子オントロジーを組み込んだタンパク質
- Authors: Ningyu Zhang, Zhen Bi, Xiaozhuan Liang, Siyuan Cheng, Haosen Hong,
Shumin Deng, Jiazhang Lian, Qiang Zhang, Huajun Chen
- Abstract要約: GO(Gene Ontology)の構造をタンパク質事前学習モデルに活用する最初の汎用フレームワークであるOntoProteinを提案する。
我々はGOとその関連タンパク質からなる新しい大規模知識グラフを構築し、遺伝子アノテーションのテキストやタンパク質配列はグラフ内の全てのノードを記述する。
- 参考スコア(独自算出の注目度): 36.92674447484136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised protein language models have proved their effectiveness in
learning the proteins representations. With the increasing computational power,
current protein language models pre-trained with millions of diverse sequences
can advance the parameter scale from million-level to billion-level and achieve
remarkable improvement. However, those prevailing approaches rarely consider
incorporating knowledge graphs (KGs), which can provide rich structured
knowledge facts for better protein representations. We argue that informative
biology knowledge in KGs can enhance protein representation with external
knowledge. In this work, we propose OntoProtein, the first general framework
that makes use of structure in GO (Gene Ontology) into protein pre-training
models. We construct a novel large-scale knowledge graph that consists of GO
and its related proteins, and gene annotation texts or protein sequences
describe all nodes in the graph. We propose novel contrastive learning with
knowledge-aware negative sampling to jointly optimize the knowledge graph and
protein embedding during pre-training. Experimental results show that
OntoProtein can surpass state-of-the-art methods with pre-trained protein
language models in TAPE benchmark and yield better performance compared with
baselines in protein-protein interaction and protein function prediction. Code
and datasets are available in https://github.com/zjunlp/OntoProtein.
- Abstract(参考訳): 自己制御タンパク質言語モデルは、タンパク質表現を学習する上での有効性を証明している。
計算能力の増大に伴い、数百万の多様な配列で事前訓練された現在のタンパク質言語モデルは、パラメータスケールを百万レベルから億レベルに向上させ、著しい改善を達成できる。
しかし、これらの一般的なアプローチは知識グラフ(KG)を取り入れることを考えることは滅多になく、タンパク質表現を改善するために豊富な構造化知識事実を提供することができる。
kgsにおける情報生物学の知識は、外部の知識によってタンパク質の表現を高めることができる。
本研究では,GO(Gene Ontology)の構造をタンパク質事前学習モデルに活用する最初の汎用フレームワークであるOntoProteinを提案する。
我々はGOとその関連タンパク質からなる新しい大規模知識グラフを構築し、遺伝子アノテーションのテキストやタンパク質配列はグラフ内の全てのノードを記述する。
本稿では,知識グラフとタンパク質埋め込みを共同で最適化するために,知識認識ネガティブサンプリングを用いた新しいコントラスト学習を提案する。
実験結果から,OntoProteinはTAPEベンチマークで事前学習したタンパク質言語モデルにより最先端の手法を超越し,タンパク質-タンパク質相互作用のベースラインやタンパク質機能予測よりも優れた性能が得られることが示された。
コードとデータセットはhttps://github.com/zjunlp/OntoProtein.comで入手できる。
関連論文リスト
- Enhancing Protein Predictive Models via Proteins Data Augmentation: A
Benchmark and New Directions [58.819567030843025]
本稿では,これまで画像やテキストに用いたデータ拡張手法をタンパク質に拡張し,タンパク質関連タスクでこれらの手法をベンチマークする。
本稿では,2つの新規な意味レベルタンパク質増強法,すなわち,統合的グラディエント置換法とバック翻訳置換法を提案する。
最後に、拡張および提案された拡張を拡張プールに統合し、シンプルで効果的なフレームワークであるAutomated Protein Augmentation (APA)を提案する。
論文 参考訳(メタデータ) (2024-03-01T07:58:29Z) - Multi-level Protein Representation Learning for Blind Mutational Effect
Prediction [5.207307163958806]
本稿では,タンパク質構造解析のためのシーケンシャルおよび幾何学的アナライザをカスケードする,新しい事前学習フレームワークを提案する。
野生型タンパク質の自然選択をシミュレートすることにより、所望の形質に対する突然変異方向を誘導する。
提案手法は,多種多様な効果予測タスクに対して,パブリックデータベースと2つの新しいデータベースを用いて評価する。
論文 参考訳(メタデータ) (2023-06-08T03:00:50Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Integration of Pre-trained Protein Language Models into Geometric Deep
Learning Networks [68.90692290665648]
我々は、タンパク質言語モデルから学んだ知識を、いくつかの最先端の幾何学的ネットワークに統合する。
以上の結果から,ベースラインを20%上回る総合的な改善が見られた。
強い証拠は、タンパク質言語モデルの知識を取り入れることで、幾何学的ネットワークの能力が著しく向上することを示している。
論文 参考訳(メタデータ) (2022-12-07T04:04:04Z) - Multi-modal Protein Knowledge Graph Construction and Applications [30.500520131560112]
タンパク質科学の知識グラフであるProteinKG65を作成します。
遺伝子オントロジーとUniprotナレッジベースを基盤として、アライメント記述やタンパク質配列を用いて様々な知識を変換する。
タンパク質KG65は主にタンパク質知識グラフを提供し、遺伝子オントロジーの知識をタンパク質の機能と構造予測にもたらす。
論文 参考訳(メタデータ) (2022-05-27T08:18:56Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2022-03-11T17:52:13Z) - Deep Generative Modeling for Protein Design [0.0]
ディープラーニングアプローチは、画像分類や自然言語処理などの分野で画期的な成果を上げている。
タンパク質の遺伝子モデルが開発され、既知のタンパク質配列を全て含む、特定のタンパク質ファミリーをモデル化する、または個々のタンパク質のダイナミクスを外挿する。
本稿では、タンパク質のモデリングに最も成功した5種類の生成モデルについて論じ、ガイドされたタンパク質設計のためのフレームワークを提供する。
論文 参考訳(メタデータ) (2021-08-31T14:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。