論文の概要: PEER: A Comprehensive and Multi-Task Benchmark for Protein Sequence
Understanding
- arxiv url: http://arxiv.org/abs/2206.02096v1
- Date: Sun, 5 Jun 2022 05:21:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 17:03:04.788106
- Title: PEER: A Comprehensive and Multi-Task Benchmark for Protein Sequence
Understanding
- Title(参考訳): PEER:タンパク質配列理解のための総合的マルチタスクベンチマーク
- Authors: Minghao Xu, Zuobai Zhang, Jiarui Lu, Zhaocheng Zhu, Yangtian Zhang,
Chang Ma, Runcheng Liu, Jian Tang
- Abstract要約: PEERは、Protein sEquence undERstandingの包括的なマルチタスクベンチマークである。
タンパク質機能予測、タンパク質局在予測、タンパク質構造予測、タンパク質-リガンド相互作用予測を含む、多様なタンパク質理解タスクのセットを提供する。
我々は,従来の特徴工学的手法,異なる配列符号化手法,および大規模事前学習されたタンパク質言語モデルなど,各タスクに対するシーケンスベース手法の評価を行った。
- 参考スコア(独自算出の注目度): 17.770721291090258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are now witnessing significant progress of deep learning methods in a
variety of tasks (or datasets) of proteins. However, there is a lack of a
standard benchmark to evaluate the performance of different methods, which
hinders the progress of deep learning in this field. In this paper, we propose
such a benchmark called PEER, a comprehensive and multi-task benchmark for
Protein sEquence undERstanding. PEER provides a set of diverse protein
understanding tasks including protein function prediction, protein localization
prediction, protein structure prediction, protein-protein interaction
prediction, and protein-ligand interaction prediction. We evaluate different
types of sequence-based methods for each task including traditional feature
engineering approaches, different sequence encoding methods as well as
large-scale pre-trained protein language models. In addition, we also
investigate the performance of these methods under the multi-task learning
setting. Experimental results show that large-scale pre-trained protein
language models achieve the best performance for most individual tasks, and
jointly training multiple tasks further boosts the performance. The datasets
and source codes of this benchmark will be open-sourced soon.
- Abstract(参考訳): 現在、タンパク質の様々なタスク(またはデータセット)において、ディープラーニングメソッドが著しく進歩しているのを目撃しています。
しかし、異なる方法のパフォーマンスを評価する標準ベンチマークが欠如しており、この分野におけるディープラーニングの進歩を妨げている。
本稿では,タンパク質配列理解のための包括的かつマルチタスク・ベンチマークであるpeerを提案する。
peerは、タンパク質機能予測、タンパク質局在予測、タンパク質構造予測、タンパク質-タンパク質相互作用予測、タンパク質-リガンド相互作用予測などの多様なタンパク質理解タスクを提供する。
我々は,従来の特徴工学的手法,異なる配列符号化手法,および大規模事前学習されたタンパク質言語モデルなど,各タスクに対するシーケンスベース手法の評価を行った。
さらに,マルチタスク学習環境下でのこれらの手法の性能についても検討する。
実験の結果、大規模事前学習したタンパク質言語モデルが、ほとんどの個々のタスクで最高のパフォーマンスを達成し、複数のタスクを共同トレーニングすることで、パフォーマンスがさらに向上することが示された。
このベンチマークのデータセットとソースコードは近くオープンソース化される。
関連論文リスト
- OneProt: Towards Multi-Modal Protein Foundation Models [5.440531199006399]
我々は、構造、配列、アライメント、結合サイトデータを統合する、タンパク質のためのマルチモーダルAIであるOneProtを紹介する。
金属イオン結合分類、遺伝子オントロジーアノテーション、酵素機能予測など、様々な下流タスクにおける最先端の手法を超越している。
この研究は、タンパク質モデルにおけるマルチモーダル能力を拡大し、薬物発見、生物触媒反応計画、タンパク質工学の応用への道を開く。
論文 参考訳(メタデータ) (2024-11-07T16:54:54Z) - Enhancing Protein Predictive Models via Proteins Data Augmentation: A
Benchmark and New Directions [58.819567030843025]
本稿では,これまで画像やテキストに用いたデータ拡張手法をタンパク質に拡張し,タンパク質関連タスクでこれらの手法をベンチマークする。
本稿では,2つの新規な意味レベルタンパク質増強法,すなわち,統合的グラディエント置換法とバック翻訳置換法を提案する。
最後に、拡張および提案された拡張を拡張プールに統合し、シンプルで効果的なフレームワークであるAutomated Protein Augmentation (APA)を提案する。
論文 参考訳(メタデータ) (2024-03-01T07:58:29Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - ProtIR: Iterative Refinement between Retrievers and Predictors for
Protein Function Annotation [38.019425619750265]
本稿では,タンパク質間類似性モデリングを取り入れた関数予測器の改良を目的とした,新しい変分擬似類似性フレームワークProtIRを提案する。
ProtIRは、バニラ予測に基づく手法よりも約10%改善されている。
タンパク質言語モデルに基づく手法と同等の性能を発揮するが、大規模な事前学習は必要としない。
論文 参考訳(メタデータ) (2024-02-10T17:31:46Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Prot2Text: Multimodal Protein's Function Generation with GNNs and Transformers [18.498779242323582]
本稿では,タンパク質の機能を自由テキスト形式で予測する新しいアプローチであるProt2Textを提案する。
エンコーダ・デコーダフレームワークでグラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を組み合わせることにより,本モデルは多種多様なデータ型を効果的に統合する。
論文 参考訳(メタデータ) (2023-07-25T09:35:43Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Multi-Scale Representation Learning on Proteins [78.31410227443102]
本稿では,タンパク質HoloProtのマルチスケールグラフ構築について紹介する。
表面はタンパク質の粗い詳細を捉え、配列は一次成分であり、構造はより微細な詳細を捉えている。
グラフエンコーダは、各レベルが下のレベル(s)からそのレベルでのグラフとエンコーディングを統合することで、マルチスケール表現を学習する。
論文 参考訳(メタデータ) (2022-04-04T08:29:17Z) - Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2022-03-11T17:52:13Z) - DIPS-Plus: The Enhanced Database of Interacting Protein Structures for
Interface Prediction [2.697420611471228]
DIPS-Plusはタンパク質界面の幾何学的深層学習のための42,112複合体の強化された機能豊富なデータセットである。
DIPSの以前のバージョンは、与えられたタンパク質複合体を構成する原子のカルテシアン座標とタイプのみを含む。
DIPS-Plusには、プロテクション指標、半球アミノ酸組成、および各アミノ酸に対する新しいプロファイル隠れマルコフモデル(HMM)ベースの配列機能を含む、新しい残基レベルの特徴が多数含まれている。
論文 参考訳(メタデータ) (2021-06-06T23:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。