Fugu-MT 論文翻訳(概要): PEER: A Comprehensive and Multi-Task Benchmark for Protein Sequence Understanding

論文の概要: PEER: A Comprehensive and Multi-Task Benchmark for Protein Sequence Understanding

arxiv url: http://arxiv.org/abs/2206.02096v1
Date: Sun, 5 Jun 2022 05:21:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-07 17:03:04.788106
Title: PEER: A Comprehensive and Multi-Task Benchmark for Protein Sequence Understanding
Title（参考訳）: PEER:タンパク質配列理解のための総合的マルチタスクベンチマーク
Authors: Minghao Xu, Zuobai Zhang, Jiarui Lu, Zhaocheng Zhu, Yangtian Zhang, Chang Ma, Runcheng Liu, Jian Tang
Abstract要約: PEERは、Protein sEquence undERstandingの包括的なマルチタスクベンチマークである。タンパク質機能予測、タンパク質局在予測、タンパク質構造予測、タンパク質-リガンド相互作用予測を含む、多様なタンパク質理解タスクのセットを提供する。我々は,従来の特徴工学的手法,異なる配列符号化手法,および大規模事前学習されたタンパク質言語モデルなど,各タスクに対するシーケンスベース手法の評価を行った。
参考スコア（独自算出の注目度）: 17.770721291090258
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We are now witnessing significant progress of deep learning methods in a variety of tasks (or datasets) of proteins. However, there is a lack of a standard benchmark to evaluate the performance of different methods, which hinders the progress of deep learning in this field. In this paper, we propose such a benchmark called PEER, a comprehensive and multi-task benchmark for Protein sEquence undERstanding. PEER provides a set of diverse protein understanding tasks including protein function prediction, protein localization prediction, protein structure prediction, protein-protein interaction prediction, and protein-ligand interaction prediction. We evaluate different types of sequence-based methods for each task including traditional feature engineering approaches, different sequence encoding methods as well as large-scale pre-trained protein language models. In addition, we also investigate the performance of these methods under the multi-task learning setting. Experimental results show that large-scale pre-trained protein language models achieve the best performance for most individual tasks, and jointly training multiple tasks further boosts the performance. The datasets and source codes of this benchmark will be open-sourced soon.
Abstract（参考訳）: 現在、タンパク質の様々なタスク(またはデータセット)において、ディープラーニングメソッドが著しく進歩しているのを目撃しています。しかし、異なる方法のパフォーマンスを評価する標準ベンチマークが欠如しており、この分野におけるディープラーニングの進歩を妨げている。本稿では,タンパク質配列理解のための包括的かつマルチタスク・ベンチマークであるpeerを提案する。 peerは、タンパク質機能予測、タンパク質局在予測、タンパク質構造予測、タンパク質-タンパク質相互作用予測、タンパク質-リガンド相互作用予測などの多様なタンパク質理解タスクを提供する。我々は,従来の特徴工学的手法,異なる配列符号化手法,および大規模事前学習されたタンパク質言語モデルなど,各タスクに対するシーケンスベース手法の評価を行った。さらに,マルチタスク学習環境下でのこれらの手法の性能についても検討する。実験の結果、大規模事前学習したタンパク質言語モデルが、ほとんどの個々のタスクで最高のパフォーマンスを達成し、複数のタスクを共同トレーニングすることで、パフォーマンスがさらに向上することが示された。このベンチマークのデータセットとソースコードは近くオープンソース化される。

関連論文リスト

Prot2Token: A Unified Framework for Protein Modeling via Next-Token Prediction [19.164841536081568]
Prot2Tokenは、タンパク質関連予測の幅広い範囲を変換することで、課題を克服する統合フレームワークである。 Prot2Tokenのコアは自動回帰デコーダで、事前訓練されたタンパク質エンコーダの埋め込みを条件とし、学習可能なタスクトークンでガイドされる。 Prot2Tokensは様々な種類のタンパク質予測タスクにおいて強い予測力を示す。
論文参考訳（メタデータ） (2025-05-26T23:50:36Z)
Ankh3: Multi-Task Pretraining with Sequence Denoising and Completion Enhances Protein Representations [0.3124884279860061]
タンパク質言語モデル(PLM)は、タンパク質配列の複雑なパターンを検出する強力なツールとして登場した。 PLMのマルチタスク事前学習戦略について検討した。このマルチタスク事前学習は、PLMがタンパク質配列のみからよりリッチでより一般化可能な表現を学習できることを実証した。
論文参考訳（メタデータ） (2025-05-26T14:41:10Z)
Protein Large Language Models: A Comprehensive Survey [71.65899614084853]
タンパク質特異的な大規模言語モデル(Protein LLMs)は、より効率的なタンパク質構造予測、機能アノテーション、設計を可能にすることで、タンパク質科学に革命をもたらしている。この作業は、アーキテクチャ、データセットのトレーニング、評価メトリクス、さまざまなアプリケーションをカバーする、Protein LLMの最初の包括的な概要を提供する。
論文参考訳（メタデータ） (2025-02-21T19:22:10Z)
Computational Protein Science in the Era of Large Language Models (LLMs) [54.35488233989787]
計算タンパク質科学(Computational protein science)は、タンパク質配列構造-機能パラダイムにおける知識を明らかにすること、および応用を開発することを目的としている。最近、言語モデル (Language Models, PLM) は、前例のない言語処理と一般化能力のために、AIのマイルストーンとして登場した。
論文参考訳（メタデータ） (2025-01-17T16:21:18Z)
ProtCLIP: Function-Informed Protein Multi-Modal Learning [18.61302416993122]
ProtCLIPは,機能認識タンパク質の埋め込みを表現した多モード基盤モデルである。当社のProtCLIPは,5つのクロスモーダル変換ベンチマークにおいて,平均75%の大幅な改善を実現している。実験により,タンパク質多量性基盤モデルとしてのProtCLIPの異常なポテンシャルが検証された。
論文参考訳（メタデータ） (2024-12-28T04:23:47Z)
OneProt: Towards Multi-Modal Protein Foundation Models [5.440531199006399]
我々は、構造、配列、アライメント、結合サイトデータを統合する、タンパク質のためのマルチモーダルAIであるOneProtを紹介する。金属イオン結合分類、遺伝子オントロジーアノテーション、酵素機能予測など、様々な下流タスクにおける最先端の手法を超越している。この研究は、タンパク質モデルにおけるマルチモーダル能力を拡大し、薬物発見、生物触媒反応計画、タンパク質工学の応用への道を開く。
論文参考訳（メタデータ） (2024-11-07T16:54:54Z)
DeepProtein: Deep Learning Library and Benchmark for Protein Sequence Learning [11.832967054454546]
DeepProteinは、タンパク質関連のタスクに適した、ユーザフレンドリーなディープラーニングライブラリだ。これにより、最先端のディープラーニングモデルでタンパク質データをシームレスに処理できる。一連の微調整されたProt-T5ベースのモデルであるDeepProt-T5は、4つのベンチマークタスクで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-10-02T20:42:32Z)
Enhancing Protein Predictive Models via Proteins Data Augmentation: A Benchmark and New Directions [58.819567030843025]
本稿では,これまで画像やテキストに用いたデータ拡張手法をタンパク質に拡張し,タンパク質関連タスクでこれらの手法をベンチマークする。本稿では,2つの新規な意味レベルタンパク質増強法,すなわち,統合的グラディエント置換法とバック翻訳置換法を提案する。最後に、拡張および提案された拡張を拡張プールに統合し、シンプルで効果的なフレームワークであるAutomated Protein Augmentation (APA)を提案する。
論文参考訳（メタデータ） (2024-03-01T07:58:29Z)
ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。 ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文参考訳（メタデータ） (2024-02-28T01:29:55Z)
ProtIR: Iterative Refinement between Retrievers and Predictors for Protein Function Annotation [38.019425619750265]
本稿では,タンパク質間類似性モデリングを取り入れた関数予測器の改良を目的とした,新しい変分擬似類似性フレームワークProtIRを提案する。 ProtIRは、バニラ予測に基づく手法よりも約10%改善されている。タンパク質言語モデルに基づく手法と同等の性能を発揮するが、大規模な事前学習は必要としない。
論文参考訳（メタデータ） (2024-02-10T17:31:46Z)
xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。 xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文参考訳（メタデータ） (2024-01-11T15:03:17Z)
Prot2Text: Multimodal Protein's Function Generation with GNNs and Transformers [18.498779242323582]
本稿では,タンパク質の機能を自由テキスト形式で予測する新しいアプローチであるProt2Textを提案する。エンコーダ・デコーダフレームワークでグラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を組み合わせることにより,本モデルは多種多様なデータ型を効果的に統合する。
論文参考訳（メタデータ） (2023-07-25T09:35:43Z)
Reprogramming Pretrained Language Models for Protein Sequence Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。 R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-01-05T15:55:18Z)
Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文参考訳（メタデータ） (2022-04-06T02:18:41Z)
Multi-Scale Representation Learning on Proteins [78.31410227443102]
本稿では,タンパク質HoloProtのマルチスケールグラフ構築について紹介する。表面はタンパク質の粗い詳細を捉え、配列は一次成分であり、構造はより微細な詳細を捉えている。グラフエンコーダは、各レベルが下のレベル(s)からそのレベルでのグラフとエンコーディングを統合することで、マルチスケール表現を学習する。
論文参考訳（メタデータ） (2022-04-04T08:29:17Z)
Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文参考訳（メタデータ） (2022-03-11T17:52:13Z)
DIPS-Plus: The Enhanced Database of Interacting Protein Structures for Interface Prediction [2.697420611471228]
DIPS-Plusはタンパク質界面の幾何学的深層学習のための42,112複合体の強化された機能豊富なデータセットである。 DIPSの以前のバージョンは、与えられたタンパク質複合体を構成する原子のカルテシアン座標とタイプのみを含む。 DIPS-Plusには、プロテクション指標、半球アミノ酸組成、および各アミノ酸に対する新しいプロファイル隠れマルコフモデル(HMM)ベースの配列機能を含む、新しい残基レベルの特徴が多数含まれている。
論文参考訳（メタデータ） (2021-06-06T23:56:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。