論文の概要: Protein Structure Representation Learning by Geometric Pretraining
- arxiv url: http://arxiv.org/abs/2203.06125v1
- Date: Fri, 11 Mar 2022 17:52:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 13:55:04.897754
- Title: Protein Structure Representation Learning by Geometric Pretraining
- Title(参考訳): 幾何学的事前学習によるタンパク質構造表現学習
- Authors: Zuobai Zhang, Minghao Xu, Arian Jamasb, Vijil Chenthamarakshan,
Aurelie Lozano, Payel Das, Jian Tang
- Abstract要約: 既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
- 参考スコア(独自算出の注目度): 27.723095456631906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning effective protein representations is critical in a variety of tasks
in biology such as predicting protein function or structure. Existing
approaches usually pretrain protein language models on a large number of
unlabeled amino acid sequences and then finetune the models with some labeled
data in downstream tasks. Despite the effectiveness of sequence-based
approaches, the power of pretraining on smaller numbers of known protein
structures has not been explored for protein property prediction, though
protein structures are known to be determinants of protein function. We first
present a simple yet effective encoder to learn protein geometry features. We
pretrain the protein graph encoder by leveraging multiview contrastive learning
and different self-prediction tasks. Experimental results on both function
prediction and fold classification tasks show that our proposed pretraining
methods outperform or are on par with the state-of-the-art sequence-based
methods using much less data. All codes and models will be published upon
acceptance.
- Abstract(参考訳): 効果的なタンパク質表現の学習は、タンパク質の機能や構造を予測するといった生物学の様々なタスクにおいて重要である。
既存のアプローチは通常、多くの未ラベルアミノ酸配列でタンパク質言語モデルを事前訓練し、下流のタスクでラベル付きデータでモデルを微調整する。
配列に基づくアプローチの有効性にもかかわらず、タンパク質機能の決定因子であることが知られているが、タンパク質特性予測のために、既知のタンパク質構造を少ない数で事前訓練する能力は研究されていない。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
我々は、マルチビューコントラスト学習と異なる自己予測タスクを活用して、タンパク質グラフエンコーダを事前訓練する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
すべてのコードとモデルは受け入れ次第公開される。
関連論文リスト
- Clustering for Protein Representation Learning [72.72957540484664]
本稿では,タンパク質の臨界成分を自動的に検出するニューラルネットワーククラスタリングフレームワークを提案する。
我々のフレームワークはタンパク質をグラフとして扱い、各ノードはアミノ酸を表し、各エッジはアミノ酸間の空間的またはシーケンシャルな接続を表す。
タンパク質の折り畳み分類, 酵素反応分類, 遺伝子期予測, 酵素コミッショニング数予測の4つの課題について検討した。
論文 参考訳(メタデータ) (2024-03-30T05:51:09Z) - NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文 参考訳(メタデータ) (2024-03-21T13:27:57Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - Structure-Informed Protein Language Model [38.019425619750265]
本稿では、構造情報をタンパク質言語モデルに抽出するためのリモートホモロジー検出の統合について紹介する。
この構造インフォームドトレーニングが下流タンパク質機能予測タスクに与える影響を評価する。
論文 参考訳(メタデータ) (2024-02-07T09:32:35Z) - DeepGATGO: A Hierarchical Pretraining-Based Graph-Attention Model for
Automatic Protein Function Prediction [4.608328575930055]
自動タンパク質機能予測(AFP)は大規模多ラベル分類問題に分類される。
現在、一般的な手法は主にタンパク質関連情報と遺伝子オントロジー(GO)の用語を組み合わせて、最終的な機能予測を生成する。
本稿では,タンパク質配列とGO項ラベルを階層的に処理するシークエンスベースの階層予測手法であるDeepGATGOを提案する。
論文 参考訳(メタデータ) (2023-07-24T07:01:32Z) - Multi-level Protein Representation Learning for Blind Mutational Effect
Prediction [5.207307163958806]
本稿では,タンパク質構造解析のためのシーケンシャルおよび幾何学的アナライザをカスケードする,新しい事前学習フレームワークを提案する。
野生型タンパク質の自然選択をシミュレートすることにより、所望の形質に対する突然変異方向を誘導する。
提案手法は,多種多様な効果予測タスクに対して,パブリックデータベースと2つの新しいデータベースを用いて評価する。
論文 参考訳(メタデータ) (2023-06-08T03:00:50Z) - CCPL: Cross-modal Contrastive Protein Learning [47.095862120116976]
我々は、新しい教師なしタンパク質構造表現事前学習法、クロスモーダルコントラスト型タンパク質学習(CCPL)を導入する。
CCPLは堅牢なタンパク質言語モデルを活用し、教師なしのコントラストアライメントを用いて構造学習を強化する。
さまざまなベンチマークでモデルを評価し,フレームワークの優位性を実証した。
論文 参考訳(メタデータ) (2023-03-19T08:19:10Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - OntoProtein: Protein Pretraining With Gene Ontology Embedding [36.92674447484136]
GO(Gene Ontology)の構造をタンパク質事前学習モデルに活用する最初の汎用フレームワークであるOntoProteinを提案する。
我々はGOとその関連タンパク質からなる新しい大規模知識グラフを構築し、遺伝子アノテーションのテキストやタンパク質配列はグラフ内の全てのノードを記述する。
論文 参考訳(メタデータ) (2022-01-23T14:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。