論文の概要: Adversarial Contrastive Pre-training for Protein Sequences
- arxiv url: http://arxiv.org/abs/2102.00466v1
- Date: Sun, 31 Jan 2021 15:06:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 17:02:47.875103
- Title: Adversarial Contrastive Pre-training for Protein Sequences
- Title(参考訳): プロテイン配列に対する逆対比前訓練
- Authors: Matthew B. A. McDermott, Brendan Yap, Harry Hsu, Di Jin, Peter
Szolovits
- Abstract要約: 我々は,新しいタンパク質の対角的事前学習法を設計する。
従来の大規模事前指導型プレトレーニングと比較して,有意義な結果が得られた。
- 参考スコア(独自算出の注目度): 35.479404833364896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in Natural Language Processing (NLP) demonstrate that
large-scale, self-supervised pre-training can be extremely beneficial for
downstream tasks. These ideas have been adapted to other domains, including the
analysis of the amino acid sequences of proteins. However, to date most
attempts on protein sequences rely on direct masked language model style
pre-training. In this work, we design a new, adversarial pre-training method
for proteins, extending and specializing similar advances in NLP. We show
compelling results in comparison to traditional MLM pre-training, though
further development is needed to ensure the gains are worth the significant
computational cost.
- Abstract(参考訳): 自然言語処理(NLP)の最近の進歩は、大規模で自己管理型事前学習が下流タスクに極めて有益であることを示している。
これらのアイデアはタンパク質のアミノ酸配列の解析を含む他の領域に適応している。
しかし、現在までタンパク質配列に関するほとんどの試みは、直接マスクされた言語モデルスタイルの事前トレーニングに依存している。
本研究は,NLPの類似した進歩を拡張・特化して,新しいタンパク質の対向的事前学習法を設計する。
従来のMLMプリトレーニングと比較して魅力的な結果を示していますが、大幅な計算コストの価値を確保するためにさらなる開発が必要です。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Beyond ESM2: Graph-Enhanced Protein Sequence Modeling with Efficient Clustering [24.415612744612773]
タンパク質は生命の過程に必須であり、進化と多様性を支えている。
シークエンシング技術の進歩により数百万のタンパク質が明らかにされ、生物学的分析とAI開発のための高度な事前学習されたタンパク質モデルの必要性が強調されている。
FacebookのESM2は、これまでで最も先進的なタンパク質言語モデルであり、教師なし学習にマスク付き予測タスクを活用し、顕著な生化学的精度でアミノ酸表現を作成する。
しかし、機能的なタンパク質の洞察の提供に欠けており、表現の質を高める機会を示唆している。
本研究は,タンパク質ファミリー分類をESM2のトレーニングに組み込むことにより,このギャップに対処する。
論文 参考訳(メタデータ) (2024-04-24T11:09:43Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - ProtFIM: Fill-in-Middle Protein Sequence Design via Protein Language
Models [0.0]
現実世界のタンパク質工学では、タンパク質配列の中央にあるアミノ酸が他の残基を維持しながら最適化されることが多い。
タンパク質言語モデル(pLM)はタンパク質配列設計のための有望なツールである。
ProtFIMとよばれる中間変換によって訓練された言語モデルは、タンパク質工学により適していることを示す。
論文 参考訳(メタデータ) (2023-03-29T04:35:50Z) - Retrieved Sequence Augmentation for Protein Representation Learning [40.13920287967866]
本稿では,タンパク質表現学習のための検索シーケンス拡張について,アライメントや前処理を伴わずに導入する。
本モデルでは,新しいタンパク質ドメインに移行し,デノボタンパク質の予測においてMSAトランスフォーマーより優れていることを示す。
我々の研究はタンパク質の予測における大きなギャップを埋め、タンパク質配列を理解するのに必要なドメイン知識の解読に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-24T10:31:45Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - PEER: A Comprehensive and Multi-Task Benchmark for Protein Sequence
Understanding [17.770721291090258]
PEERは、Protein sEquence undERstandingの包括的なマルチタスクベンチマークである。
タンパク質機能予測、タンパク質局在予測、タンパク質構造予測、タンパク質-リガンド相互作用予測を含む、多様なタンパク質理解タスクのセットを提供する。
我々は,従来の特徴工学的手法,異なる配列符号化手法,および大規模事前学習されたタンパク質言語モデルなど,各タスクに対するシーケンスベース手法の評価を行った。
論文 参考訳(メタデータ) (2022-06-05T05:21:56Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Profile Prediction: An Alignment-Based Pre-Training Task for Protein
Sequence Models [11.483725773928382]
タンパク質予測に対する最近のディープラーニングアプローチは、ラベルなしデータによる事前学習が下流タスクに有用な表現をもたらすことを示している。
我々は、複数の配列アライメントから導かれるタンパク質プロファイルを直接予測する、新しい事前学習タスクを導入する。
以上の結果から, タンパク質配列モデルが生物学的に誘発される誘導バイアスの活用の恩恵を受ける可能性が示唆された。
論文 参考訳(メタデータ) (2020-12-01T01:01:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。