論文の概要: Training self-supervised peptide sequence models on artificially chopped
proteins
- arxiv url: http://arxiv.org/abs/2211.06428v1
- Date: Wed, 9 Nov 2022 22:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 13:31:40.272164
- Title: Training self-supervised peptide sequence models on artificially chopped
proteins
- Title(参考訳): 人工切断タンパク質の自己制御ペプチド配列モデルの訓練
- Authors: Gil Sadeh, Zichen Wang, Jasleen Grewal, Huzefa Rangwala, Layne Price
- Abstract要約: 我々は、ペプチド言語モデルを「チョップタンパク質」で訓練する新しいペプチドデータ拡張手法を提案する。
タンパクで訓練されたモデルと天然ペプチドの表現電位を評価した。
深部突然変異スキャンペプチドベンチマークにおけるゼロショット学習性能の向上を実証した。
- 参考スコア(独自算出の注目度): 12.715029139379393
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Representation learning for proteins has primarily focused on the global
understanding of protein sequences regardless of their length. However, shorter
proteins (known as peptides) take on distinct structures and functions compared
to their longer counterparts. Unfortunately, there are not as many naturally
occurring peptides available to be sequenced and therefore less
peptide-specific data to train with. In this paper, we propose a new peptide
data augmentation scheme, where we train peptide language models on
artificially constructed peptides that are small contiguous subsets of longer,
wild-type proteins; we refer to the training peptides as "chopped proteins". We
evaluate the representation potential of models trained with chopped proteins
versus natural peptides and find that training language models with chopped
proteins results in more generalized embeddings for short protein sequences.
These peptide-specific models also retain information about the original
protein they were derived from better than language models trained on
full-length proteins. We compare masked language model training objectives to
three novel peptide-specific training objectives: next-peptide prediction,
contrastive peptide selection and evolution-weighted MLM. We demonstrate
improved zero-shot learning performance for a deep mutational scan peptides
benchmark.
- Abstract(参考訳): タンパク質の表現学習は主に、その長さに関わらず、タンパク質配列のグローバルな理解に焦点を当てている。
しかし、短いタンパク質(ペプチドとして知られる)は、長いタンパク質と異なる構造と機能を持つ。
残念なことに、天然に存在するペプチドの配列はそれほど多くないため、訓練対象のペプチド特異的なデータは少ない。
本稿では,より長い野生型タンパク質の連続部分集合である人工的に構築されたペプチド上で,ペプチド言語モデルを訓練する,新しいペプチドデータ拡張手法を提案する。
切断タンパク質と天然ペプチドを訓練したモデルの表現可能性を評価し、切断タンパク質を用いた訓練言語モデルが短いタンパク質配列に対してより汎用的な埋め込みをもたらすことを見出した。
これらのペプチド特異的モデルは、フル長のタンパク質で訓練された言語モデルよりも、元のタンパク質に由来する情報を保持する。
マスク付き言語モデルトレーニングの目的と,次のペプチド予測,コントラストペプチド選択,進化強調mlmの3つの新しいペプチド特異的トレーニング目標を比較した。
深部突然変異スキャンペプチドベンチマークによるゼロショット学習性能の向上を実証した。
関連論文リスト
- Unbiased organism-agnostic and highly sensitive signal peptide predictor
with deep protein language model [12.37352652557512]
シグナルペプチド(Signal peptide、SP)は、タンパク質のN末端に位置する短いペプチドである。
本稿では,信号ペプチド分類と切断部位予測深層学習法であるunbiased Organism-Agnostic Signal peptide Network (USPNet)を提案する。
本稿では,データ不均衡問題に対処するためにラベル分布を考慮したマージン損失を適用し,タンパク質の進化情報を用いて表現を豊かにする手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T14:32:48Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - ProtFIM: Fill-in-Middle Protein Sequence Design via Protein Language
Models [0.0]
現実世界のタンパク質工学では、タンパク質配列の中央にあるアミノ酸が他の残基を維持しながら最適化されることが多い。
タンパク質言語モデル(pLM)はタンパク質配列設計のための有望なツールである。
ProtFIMとよばれる中間変換によって訓練された言語モデルは、タンパク質工学により適していることを示す。
論文 参考訳(メタデータ) (2023-03-29T04:35:50Z) - A Text-guided Protein Design Framework [109.18157766856196]
本稿では,タンパク質設計のためのテキスト記述を利用するマルチモーダルフレームワークであるProteinDTを提案する。
タンパク質DTは以下の3つのステップから構成される:2つのモダリティの表現を整列するProteinCLAP、テキストモダリティからタンパク質表現を生成するファシリテーター、表現からタンパク質配列を生成するデコーダ。
本研究では,(1)テキスト誘導タンパク質生成における90%以上の精度,(2)ゼロショットテキスト誘導タンパク質編集タスク10件のベストヒット率,(3)タンパク質特性予測ベンチマーク6件中4件の優れた性能の3つの課題に対して,ProteinDTの有効性を定量的に検証した。
論文 参考訳(メタデータ) (2023-02-09T12:59:16Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2022-03-11T17:52:13Z) - OntoProtein: Protein Pretraining With Gene Ontology Embedding [36.92674447484136]
GO(Gene Ontology)の構造をタンパク質事前学習モデルに活用する最初の汎用フレームワークであるOntoProteinを提案する。
我々はGOとその関連タンパク質からなる新しい大規模知識グラフを構築し、遺伝子アノテーションのテキストやタンパク質配列はグラフ内の全てのノードを記述する。
論文 参考訳(メタデータ) (2022-01-23T14:49:49Z) - Multimodal Pre-Training Model for Sequence-based Prediction of
Protein-Protein Interaction [7.022012579173686]
タンパク質モデルによる効果的な表現の学習は、タンパク質とタンパク質の相互作用において重要である。
PPIの事前学習モデルのほとんどは配列ベースであり、自然言語処理で使用される言語モデルをアミノ酸配列に導入している。
本稿では, 配列, 構造, 機能という3つのモーダル性を持つマルチモーダルタンパク質事前学習モデルを提案する。
論文 参考訳(メタデータ) (2021-12-09T10:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。