論文の概要: PeptideBERT: A Language Model based on Transformers for Peptide Property
Prediction
- arxiv url: http://arxiv.org/abs/2309.03099v1
- Date: Mon, 28 Aug 2023 01:09:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-10 03:35:06.513409
- Title: PeptideBERT: A Language Model based on Transformers for Peptide Property
Prediction
- Title(参考訳): PeptideBERT:Peptide特性予測のためのトランスフォーマに基づく言語モデル
- Authors: Chakradhar Guntuboina, Adrita Das, Parisa Mollaei, Seongwon Kim, and
Amir Barati Farimani
- Abstract要約: ペプチドの3つの重要な性質を予測するためのタンパク質言語モデルを導入する。
このモデルは溶血を予測するための最先端技術(SOTA)を達成している。
また, ペプチドの非特異的相互作用に抵抗する能力の予測にも顕著な精度が得られた。
- 参考スコア(独自算出の注目度): 5.417632175667162
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in Language Models have enabled the protein modeling
community with a powerful tool since protein sequences can be represented as
text. Specifically, by taking advantage of Transformers, sequence-to-property
prediction will be amenable without the need for explicit structural data. In
this work, inspired by recent progress in Large Language Models (LLMs), we
introduce PeptideBERT, a protein language model for predicting three key
properties of peptides (hemolysis, solubility, and non-fouling). The
PeptideBert utilizes the ProtBERT pretrained transformer model with 12
attention heads and 12 hidden layers. We then finetuned the pretrained model
for the three downstream tasks. Our model has achieved state of the art (SOTA)
for predicting Hemolysis, which is a task for determining peptide's potential
to induce red blood cell lysis. Our PeptideBert non-fouling model also achieved
remarkable accuracy in predicting peptide's capacity to resist non-specific
interactions. This model, trained predominantly on shorter sequences, benefits
from the dataset where negative examples are largely associated with insoluble
peptides. Codes, models, and data used in this study are freely available at:
https://github.com/ChakradharG/PeptideBERT
- Abstract(参考訳): 言語モデルにおける最近の進歩は、タンパク質配列をテキストとして表現できるため、タンパク質モデリングコミュニティを強力なツールで実現している。
具体的には、トランスフォーマーを活用することで、明示的な構造データを必要とせずに、シーケンシャルからプロパティへの予測を改善できる。
本研究では,近年の大規模言語モデル(llms)の進展に触発されて,ペプチドの3つの重要な特性(溶血性,溶解性,非汚濁性)を予測するためのタンパク質言語モデルである peptidebert を紹介する。
PeptideBertは、12のアテンションヘッドと12の隠れレイヤを持つ、ProtBERT事前訓練されたトランスフォーマーモデルを使用している。
そして、3つの下流タスクのための事前訓練されたモデルを微調整した。
本モデルでは, 赤血球溶解を誘導するペプチドの電位を決定するために, 溶血を予測するためのSOTA(State of the Art)を達成している。
PeptideBertの非汚濁モデルも,ペプチドの非特異的相互作用に抵抗する能力の予測において顕著な精度を達成した。
このモデルは、主に短い配列に基づいて訓練され、負の例が主に不溶性ペプチドと関連しているデータセットの恩恵を受ける。
この研究で使用されるコード、モデル、データは、https://github.com/ChakradharG/PeptideBERT.comで無償公開されている。
関連論文リスト
- Sparse Prototype Network for Explainable Pedestrian Behavior Prediction [60.80524827122901]
Sparse Prototype Network (SPN) は,歩行者の将来の行動,軌道,ポーズを同時に予測するための説明可能な手法である。
モノセマンティリティとクラスタリングの制約によって規則化されたプロトタイプは、一貫性と人間の理解可能な機能を学ぶ。
論文 参考訳(メタデータ) (2024-10-16T03:33:40Z) - Multi-Peptide: Multimodality Leveraged Language-Graph Learning of Peptide Properties [5.812284760539713]
Multi-Peptideは、トランスフォーマーベースの言語モデルとグラフニューラルネットワーク(GNN)を組み合わせてペプチドの性質を予測する革新的なアプローチである。
溶血性データセットおよび非汚泥性データセットの評価は、多ペプチドの堅牢性を示し、溶血性予測における最先端86.185%の精度を達成する。
本研究は, 生体情報学におけるマルチモーダル学習の可能性を強調し, ペプチドを用いた研究・応用における正確かつ信頼性の高い予測方法を模索する。
論文 参考訳(メタデータ) (2024-07-02T20:13:47Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - Neural Network Layers for Prediction of Positive Definite Elastic
Stiffness Tensors [0.0]
本研究は, 異なる正の関数が層に与える影響と, その包摂がモデル精度に与える影響について検討する。
最終的に、単一のSPD層がモデルの平均予測精度を向上させることが示される。
論文 参考訳(メタデータ) (2022-03-25T23:40:49Z) - Bayesian neural network with pretrained protein embedding enhances
prediction accuracy of drug-protein interaction [3.499870393443268]
ディープラーニングのアプローチは、人間による試行錯誤なしに薬物とタンパク質の相互作用を予測できる。
本稿では,小さなラベル付きデータセットで優れた性能を示すディープラーニングフレームワークを構築するための2つの手法を提案する。
論文 参考訳(メタデータ) (2020-12-15T10:24:34Z) - Pre-training Protein Language Models with Label-Agnostic Binding Pairs
Enhances Performance in Downstream Tasks [1.452875650827562]
タンパク質配列の1%未満は構造的にも機能的にも注釈付けされている。
本稿では,結合タンパク質配列と非結合タンパク質配列を混合したRoBERTaモデルを提案する。
トランスフォーマーの注意機構は,タンパク質結合部位の発見に寄与することが示唆された。
論文 参考訳(メタデータ) (2020-12-05T17:37:41Z) - Enzyme promiscuity prediction using hierarchy-informed multi-label
classification [6.6828647808002595]
本稿では,983個の異なる酵素が問合せ分子と相互作用しうるかを予測するための機械学習モデルを提案し,評価する。
いくつかの相互作用は自然選択に起因し、酵素の天然基質を含む。
しかし、相互作用の大部分は非天然基質を含んでおり、プロミスキュラスな酵素活性を反映している。
論文 参考訳(メタデータ) (2020-02-18T01:39:24Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。