論文の概要: Training self-supervised peptide sequence models on artificially chopped
proteins
- arxiv url: http://arxiv.org/abs/2211.06428v1
- Date: Wed, 9 Nov 2022 22:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 13:31:40.272164
- Title: Training self-supervised peptide sequence models on artificially chopped
proteins
- Title(参考訳): 人工切断タンパク質の自己制御ペプチド配列モデルの訓練
- Authors: Gil Sadeh, Zichen Wang, Jasleen Grewal, Huzefa Rangwala, Layne Price
- Abstract要約: 我々は、ペプチド言語モデルを「チョップタンパク質」で訓練する新しいペプチドデータ拡張手法を提案する。
タンパクで訓練されたモデルと天然ペプチドの表現電位を評価した。
深部突然変異スキャンペプチドベンチマークにおけるゼロショット学習性能の向上を実証した。
- 参考スコア(独自算出の注目度): 12.715029139379393
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Representation learning for proteins has primarily focused on the global
understanding of protein sequences regardless of their length. However, shorter
proteins (known as peptides) take on distinct structures and functions compared
to their longer counterparts. Unfortunately, there are not as many naturally
occurring peptides available to be sequenced and therefore less
peptide-specific data to train with. In this paper, we propose a new peptide
data augmentation scheme, where we train peptide language models on
artificially constructed peptides that are small contiguous subsets of longer,
wild-type proteins; we refer to the training peptides as "chopped proteins". We
evaluate the representation potential of models trained with chopped proteins
versus natural peptides and find that training language models with chopped
proteins results in more generalized embeddings for short protein sequences.
These peptide-specific models also retain information about the original
protein they were derived from better than language models trained on
full-length proteins. We compare masked language model training objectives to
three novel peptide-specific training objectives: next-peptide prediction,
contrastive peptide selection and evolution-weighted MLM. We demonstrate
improved zero-shot learning performance for a deep mutational scan peptides
benchmark.
- Abstract(参考訳): タンパク質の表現学習は主に、その長さに関わらず、タンパク質配列のグローバルな理解に焦点を当てている。
しかし、短いタンパク質(ペプチドとして知られる)は、長いタンパク質と異なる構造と機能を持つ。
残念なことに、天然に存在するペプチドの配列はそれほど多くないため、訓練対象のペプチド特異的なデータは少ない。
本稿では,より長い野生型タンパク質の連続部分集合である人工的に構築されたペプチド上で,ペプチド言語モデルを訓練する,新しいペプチドデータ拡張手法を提案する。
切断タンパク質と天然ペプチドを訓練したモデルの表現可能性を評価し、切断タンパク質を用いた訓練言語モデルが短いタンパク質配列に対してより汎用的な埋め込みをもたらすことを見出した。
これらのペプチド特異的モデルは、フル長のタンパク質で訓練された言語モデルよりも、元のタンパク質に由来する情報を保持する。
マスク付き言語モデルトレーニングの目的と,次のペプチド予測,コントラストペプチド選択,進化強調mlmの3つの新しいペプチド特異的トレーニング目標を比較した。
深部突然変異スキャンペプチドベンチマークによるゼロショット学習性能の向上を実証した。
関連論文リスト
- Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - ProtT3: Protein-to-Text Generation for Text-based Protein Understanding [88.43323947543996]
言語モデル(LM)は、タンパク質のテキスト記述を理解するのに優れている。
タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストを処理するのに苦労する。
ProtT3は、テキストベースのタンパク質理解のための、タンパク質からテキストへの生成のためのフレームワークである。
論文 参考訳(メタデータ) (2024-05-21T08:06:13Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - Unbiased organism-agnostic and highly sensitive signal peptide predictor
with deep protein language model [12.37352652557512]
シグナルペプチド(Signal peptide、SP)は、タンパク質のN末端に位置する短いペプチドである。
本稿では,信号ペプチド分類と切断部位予測深層学習法であるunbiased Organism-Agnostic Signal peptide Network (USPNet)を提案する。
本稿では,データ不均衡問題に対処するためにラベル分布を考慮したマージン損失を適用し,タンパク質の進化情報を用いて表現を豊かにする手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T14:32:48Z) - ProtFIM: Fill-in-Middle Protein Sequence Design via Protein Language
Models [0.0]
現実世界のタンパク質工学では、タンパク質配列の中央にあるアミノ酸が他の残基を維持しながら最適化されることが多い。
タンパク質言語モデル(pLM)はタンパク質配列設計のための有望なツールである。
ProtFIMとよばれる中間変換によって訓練された言語モデルは、タンパク質工学により適していることを示す。
論文 参考訳(メタデータ) (2023-03-29T04:35:50Z) - A Text-guided Protein Design Framework [106.79061950107922]
本稿では,タンパク質設計のためのテキスト記述を利用するマルチモーダルフレームワークであるProteinDTを提案する。
タンパク質DTは以下の3つのステップから構成される:2つのモダリティの表現を整列するProteinCLAP、テキストモダリティからタンパク質表現を生成するファシリテーター、表現からタンパク質配列を生成するデコーダ。
本研究では,(1)テキスト誘導タンパク質生成における90%以上の精度,(2)ゼロショットテキスト誘導タンパク質編集タスクにおけるベストヒット率,(3)タンパク質特性予測ベンチマーク6項目中4項目における優れた性能の3つの課題に対するProteinDTの有効性を定量的に検証した。
論文 参考訳(メタデータ) (2023-02-09T12:59:16Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2022-03-11T17:52:13Z) - Multimodal Pre-Training Model for Sequence-based Prediction of
Protein-Protein Interaction [7.022012579173686]
タンパク質モデルによる効果的な表現の学習は、タンパク質とタンパク質の相互作用において重要である。
PPIの事前学習モデルのほとんどは配列ベースであり、自然言語処理で使用される言語モデルをアミノ酸配列に導入している。
本稿では, 配列, 構造, 機能という3つのモーダル性を持つマルチモーダルタンパク質事前学習モデルを提案する。
論文 参考訳(メタデータ) (2021-12-09T10:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。