Fugu-MT 論文翻訳(概要): Structure-aware Protein Self-supervised Learning

論文の概要: Structure-aware Protein Self-supervised Learning

arxiv url: http://arxiv.org/abs/2204.04213v4
Date: Sat, 8 Apr 2023 22:15:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-12 00:02:07.199449
Title: Structure-aware Protein Self-supervised Learning
Title（参考訳）: 構造認識タンパク質自己教師付き学習
Authors: Can Chen, Jingbo Zhou, Fan Wang, Xue Liu, and Dejing Dou
Abstract要約: 本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
参考スコア（独自算出の注目度）: 50.04673179816619
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Protein representation learning methods have shown great potential to yield useful representation for many downstream tasks, especially on protein classification. Moreover, a few recent studies have shown great promise in addressing insufficient labels of proteins with self-supervised learning methods. However, existing protein language models are usually pretrained on protein sequences without considering the important protein structural information. To this end, we propose a novel structure-aware protein self-supervised learning method to effectively capture structural information of proteins. In particular, a well-designed graph neural network (GNN) model is pretrained to preserve the protein structural information with self-supervised tasks from a pairwise residue distance perspective and a dihedral angle perspective, respectively. Furthermore, we propose to leverage the available protein language model pretrained on protein sequences to enhance the self-supervised learning. Specifically, we identify the relation between the sequential information in the protein language model and the structural information in the specially designed GNN model via a novel pseudo bi-level optimization scheme. Experiments on several supervised downstream tasks verify the effectiveness of our proposed method.The code of the proposed method is available in \url{https://github.com/GGchen1997/STEPS_Bioinformatics}.
Abstract（参考訳）: タンパク質表現学習法は、多くの下流タスク、特にタンパク質分類において有用な表現をもたらす大きな可能性を示している。さらに、近年の研究では、自己教師付き学習手法で不十分なタンパク質のラベルに対処する大きな可能性を示している。しかし、既存のタンパク質言語モデルは通常、重要なタンパク質構造情報を考慮せずにタンパク質配列で事前訓練される。そこで本研究では,タンパク質の構造情報を効果的に把握する構造認識型タンパク質自己教師学習法を提案する。特に、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練し、それぞれ2つの残差距離パースペクティブと2面角パースペクティブから自己教師付きタスクでタンパク質構造情報を保存する。さらに,タンパク質配列に事前学習したタンパク質言語モデルを活用し,自己教師付き学習を強化することを提案する。具体的には、タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を、新しい擬似二段階最適化手法を用いて同定する。教師付き下流タスクの実験により提案手法の有効性が検証され,提案手法のコードは \url{https://github.com/GGchen1997/STEPS_Bioinformatics} で公開されている。

関連論文リスト

Protein Large Language Models: A Comprehensive Survey [71.65899614084853]
タンパク質特異的な大規模言語モデル(Protein LLMs)は、より効率的なタンパク質構造予測、機能アノテーション、設計を可能にすることで、タンパク質科学に革命をもたらしている。この作業は、アーキテクチャ、データセットのトレーニング、評価メトリクス、さまざまなアプリケーションをカバーする、Protein LLMの最初の包括的な概要を提供する。
論文参考訳（メタデータ） (2025-02-21T19:22:10Z)
GOProteinGNN: Leveraging Protein Knowledge Graphs for Protein Representation Learning [27.192150057715835]
GOProteinGNNは、タンパク質知識グラフ情報を統合することにより、タンパク質言語モデルを強化する新しいアーキテクチャである。我々のアプローチは、個々のアミノ酸レベルとタンパク質レベルの両方で情報の統合を可能にし、包括的で効果的な学習プロセスを可能にします。
論文参考訳（メタデータ） (2024-07-31T17:54:22Z)
Geometric Self-Supervised Pretraining on 3D Protein Structures using Subgraphs [26.727436310732692]
本稿では,3次元タンパク質構造上の3次元グラフニューラルネットワークを事前学習するための自己教師型手法を提案する。提案手法が6%までの大幅な改善につながることを実験的に示す。
論文参考訳（メタデータ） (2024-06-20T09:34:31Z)
ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。 PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。 PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文参考訳（メタデータ） (2024-03-30T05:32:42Z)
NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文参考訳（メタデータ） (2024-03-21T13:27:57Z)
ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。 ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文参考訳（メタデータ） (2024-02-28T01:29:55Z)
CCPL: Cross-modal Contrastive Protein Learning [47.095862120116976]
我々は、新しい教師なしタンパク質構造表現事前学習法、クロスモーダルコントラスト型タンパク質学習(CCPL)を導入する。 CCPLは堅牢なタンパク質言語モデルを活用し、教師なしのコントラストアライメントを用いて構造学習を強化する。さまざまなベンチマークでモデルを評価し,フレームワークの優位性を実証した。
論文参考訳（メタデータ） (2023-03-19T08:19:10Z)
Learning Geometrically Disentangled Representations of Protein Folding Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文参考訳（メタデータ） (2022-05-20T19:38:00Z)
Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文参考訳（メタデータ） (2022-03-11T17:52:13Z)
OntoProtein: Protein Pretraining With Gene Ontology Embedding [36.92674447484136]
GO(Gene Ontology)の構造をタンパク質事前学習モデルに活用する最初の汎用フレームワークであるOntoProteinを提案する。我々はGOとその関連タンパク質からなる新しい大規模知識グラフを構築し、遺伝子アノテーションのテキストやタンパク質配列はグラフ内の全てのノードを記述する。
論文参考訳（メタデータ） (2022-01-23T14:49:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。