論文の概要: PeptideBERT: A Language Model based on Transformers for Peptide Property
Prediction
- arxiv url: http://arxiv.org/abs/2309.03099v1
- Date: Mon, 28 Aug 2023 01:09:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-10 03:35:06.513409
- Title: PeptideBERT: A Language Model based on Transformers for Peptide Property
Prediction
- Title(参考訳): PeptideBERT:Peptide特性予測のためのトランスフォーマに基づく言語モデル
- Authors: Chakradhar Guntuboina, Adrita Das, Parisa Mollaei, Seongwon Kim, and
Amir Barati Farimani
- Abstract要約: ペプチドの3つの重要な性質を予測するためのタンパク質言語モデルを導入する。
このモデルは溶血を予測するための最先端技術(SOTA)を達成している。
また, ペプチドの非特異的相互作用に抵抗する能力の予測にも顕著な精度が得られた。
- 参考スコア(独自算出の注目度): 5.417632175667162
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in Language Models have enabled the protein modeling
community with a powerful tool since protein sequences can be represented as
text. Specifically, by taking advantage of Transformers, sequence-to-property
prediction will be amenable without the need for explicit structural data. In
this work, inspired by recent progress in Large Language Models (LLMs), we
introduce PeptideBERT, a protein language model for predicting three key
properties of peptides (hemolysis, solubility, and non-fouling). The
PeptideBert utilizes the ProtBERT pretrained transformer model with 12
attention heads and 12 hidden layers. We then finetuned the pretrained model
for the three downstream tasks. Our model has achieved state of the art (SOTA)
for predicting Hemolysis, which is a task for determining peptide's potential
to induce red blood cell lysis. Our PeptideBert non-fouling model also achieved
remarkable accuracy in predicting peptide's capacity to resist non-specific
interactions. This model, trained predominantly on shorter sequences, benefits
from the dataset where negative examples are largely associated with insoluble
peptides. Codes, models, and data used in this study are freely available at:
https://github.com/ChakradharG/PeptideBERT
- Abstract(参考訳): 言語モデルにおける最近の進歩は、タンパク質配列をテキストとして表現できるため、タンパク質モデリングコミュニティを強力なツールで実現している。
具体的には、トランスフォーマーを活用することで、明示的な構造データを必要とせずに、シーケンシャルからプロパティへの予測を改善できる。
本研究では,近年の大規模言語モデル(llms)の進展に触発されて,ペプチドの3つの重要な特性(溶血性,溶解性,非汚濁性)を予測するためのタンパク質言語モデルである peptidebert を紹介する。
PeptideBertは、12のアテンションヘッドと12の隠れレイヤを持つ、ProtBERT事前訓練されたトランスフォーマーモデルを使用している。
そして、3つの下流タスクのための事前訓練されたモデルを微調整した。
本モデルでは, 赤血球溶解を誘導するペプチドの電位を決定するために, 溶血を予測するためのSOTA(State of the Art)を達成している。
PeptideBertの非汚濁モデルも,ペプチドの非特異的相互作用に抵抗する能力の予測において顕著な精度を達成した。
このモデルは、主に短い配列に基づいて訓練され、負の例が主に不溶性ペプチドと関連しているデータセットの恩恵を受ける。
この研究で使用されるコード、モデル、データは、https://github.com/ChakradharG/PeptideBERT.comで無償公開されている。
関連論文リスト
- A Curious Case of Searching for the Correlation between Training Data
and Adversarial Robustness of Transformer Textual Models [13.417382097912089]
既存の研究によると、微調整されたテキスト変換モデルは最先端の予測性能を実現するが、敵対的なテキスト摂動にも弱い。
本稿では,トレーニングデータとモデルロバスト性との間にも強い相関関係があることを証明したい。
様々な入力微調整コーパス特性を表す13の異なる特徴を抽出し,それらを用いて微調整モデルの対角的堅牢性を予測する。
論文 参考訳(メタデータ) (2024-02-18T05:58:25Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - Neural Network Layers for Prediction of Positive Definite Elastic
Stiffness Tensors [0.0]
本研究は, 異なる正の関数が層に与える影響と, その包摂がモデル精度に与える影響について検討する。
最終的に、単一のSPD層がモデルの平均予測精度を向上させることが示される。
論文 参考訳(メタデータ) (2022-03-25T23:40:49Z) - Bayesian neural network with pretrained protein embedding enhances
prediction accuracy of drug-protein interaction [3.499870393443268]
ディープラーニングのアプローチは、人間による試行錯誤なしに薬物とタンパク質の相互作用を予測できる。
本稿では,小さなラベル付きデータセットで優れた性能を示すディープラーニングフレームワークを構築するための2つの手法を提案する。
論文 参考訳(メタデータ) (2020-12-15T10:24:34Z) - Pre-training Protein Language Models with Label-Agnostic Binding Pairs
Enhances Performance in Downstream Tasks [1.452875650827562]
タンパク質配列の1%未満は構造的にも機能的にも注釈付けされている。
本稿では,結合タンパク質配列と非結合タンパク質配列を混合したRoBERTaモデルを提案する。
トランスフォーマーの注意機構は,タンパク質結合部位の発見に寄与することが示唆された。
論文 参考訳(メタデータ) (2020-12-05T17:37:41Z) - Enzyme promiscuity prediction using hierarchy-informed multi-label
classification [6.6828647808002595]
本稿では,983個の異なる酵素が問合せ分子と相互作用しうるかを予測するための機械学習モデルを提案し,評価する。
いくつかの相互作用は自然選択に起因し、酵素の天然基質を含む。
しかし、相互作用の大部分は非天然基質を含んでおり、プロミスキュラスな酵素活性を反映している。
論文 参考訳(メタデータ) (2020-02-18T01:39:24Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。