論文の概要: SBSM-Pro: Support Bio-sequence Machine for Proteins
- arxiv url: http://arxiv.org/abs/2308.10275v1
- Date: Sun, 20 Aug 2023 14:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 16:39:35.802479
- Title: SBSM-Pro: Support Bio-sequence Machine for Proteins
- Title(参考訳): SBSM-Pro:タンパク質のバイオシーケンスマシンをサポート
- Authors: Yizheng Wang, Yixiao Zhai, Yijie Ding, Quan Zou
- Abstract要約: 本稿では,生物配列分類に特化して設計されたタンパク質のバイオシーケンスマシンを提案する。
配列アライメントを組み込んでタンパク質間の類似性を測り、新しいMKLアプローチを用いて様々な種類の情報を統合する。
以上の結果から,タンパク質の機能同定と翻訳後修飾の点から,本モデルが10個のデータセットにまたがる可換性を示すことが示唆された。
- 参考スコア(独自算出の注目度): 2.716144006729723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proteins play a pivotal role in biological systems. The use of machine
learning algorithms for protein classification can assist and even guide
biological experiments, offering crucial insights for biotechnological
applications. We propose a support bio-sequence machine for proteins, a model
specifically designed for biological sequence classification. This model starts
with raw sequences and groups amino acids based on their physicochemical
properties. It incorporates sequence alignment to measure the similarities
between proteins and uses a novel MKL approach to integrate various types of
information, utilizing support vector machines for classification prediction.
The results indicate that our model demonstrates commendable performance across
10 datasets in terms of the identification of protein function and
posttranslational modification. This research not only showcases
state-of-the-art work in protein classification but also paves the way for new
directions in this domain, representing a beneficial endeavour in the
development of platforms tailored for biological sequence classification.
SBSM-Pro is available for access at http://lab.malab.cn/soft/SBSM-Pro/.
- Abstract(参考訳): タンパク質は生物学的システムにおいて重要な役割を果たす。
タンパク質の分類に機械学習アルゴリズムを使用することで、生物実験を補助し、ガイドすることもできる。
本稿では,生物配列分類に特化して設計されたタンパク質のバイオシーケンスマシンを提案する。
このモデルは生の配列から始まり、その物理化学的性質に基づいてアミノ酸をグループ化する。
これは、タンパク質間の類似性を測定するために配列アライメントを組み込んでおり、新しいmklアプローチを用いて様々な種類の情報を統合し、サポートベクターマシンを使用して分類予測を行う。
以上の結果から,タンパク質機能同定と翻訳後修飾の点から,本モデルが10データセットにまたがる可換性を示すことが示された。
この研究は、タンパク質の分類における最先端の研究を示すだけでなく、この領域における新しい方向への道のりも示しており、生物学的配列分類に適したプラットフォームの開発において有益であることを示している。
SBSM-Proはhttp://lab.malab.cn/soft/SBSM-Pro/からアクセスできる。
関連論文リスト
- MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction [65.33218256339151]
翻訳後修飾(PTM)はプロテオームの複雑さと機能を大幅に拡張する。
既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。
本稿では,各酸のマイクロ環境をトークン化し,シーケンス情報と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
論文 参考訳(メタデータ) (2024-11-04T07:14:28Z) - Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - Position Specific Scoring Is All You Need? Revisiting Protein Sequence Classification Tasks [41.7345616221048]
タンパク質配列のPSS表現と文字列カーネルの概念を組み合わせた重み付きPSSカーネル行列(W-PSSKM)を提案する。
この結果、タンパク質配列分類の他の多くのアプローチよりも優れた新しいカーネル関数がもたらされる。
論文 参考訳(メタデータ) (2024-10-16T15:16:50Z) - A PLMs based protein retrieval framework [4.110243520064533]
本稿では,配列類似性に対するバイアスを緩和する新規なタンパク質検索フレームワークを提案する。
我々のフレームワークは、タンパク質の配列を高次元の特徴空間に埋め込むために、タンパク質言語モデル(PLM)を主導的に活用する。
大規模な実験により、我々のフレームワークは類似タンパク質と異種タンパク質の両方を等しく回収できることが示された。
論文 参考訳(メタデータ) (2024-07-16T09:52:42Z) - Clustering for Protein Representation Learning [72.72957540484664]
本稿では,タンパク質の臨界成分を自動的に検出するニューラルネットワーククラスタリングフレームワークを提案する。
我々のフレームワークはタンパク質をグラフとして扱い、各ノードはアミノ酸を表し、各エッジはアミノ酸間の空間的またはシーケンシャルな接続を表す。
タンパク質の折り畳み分類, 酵素反応分類, 遺伝子期予測, 酵素コミッショニング数予測の4つの課題について検討した。
論文 参考訳(メタデータ) (2024-03-30T05:51:09Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文 参考訳(メタデータ) (2024-03-21T13:27:57Z) - Deep Learning Methods for Protein Family Classification on PDB
Sequencing Data [0.0]
本稿では,新たな双方向LSTMや畳み込みモデルなどのディープラーニングフレームワークの性能を,広く利用可能なシークエンシングデータ上で実証し比較する。
我々のディープラーニングモデルは従来の機械学習手法よりも優れた性能を示し、畳み込みアーキテクチャは最も印象的な推論性能を提供する。
論文 参考訳(メタデータ) (2022-07-14T06:11:32Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Binary classification of proteins by a Machine Learning approach [0.0]
本稿では,タンパク質データバンクに含まれるタンパク質の記述に基づいてアミノ酸のタンパク質鎖を分類するシステムを提案する。
それぞれのタンパク質は、XML形式でのファイルの化学・物理・幾何学的特性で完全に記述されている。
この研究の目的は、大量のデータの収集と管理のためのディープラーニング機械を設計し、そのアミノ酸配列の分類への応用を通じてそれを検証することである。
論文 参考訳(メタデータ) (2021-11-03T01:58:16Z) - DIPS-Plus: The Enhanced Database of Interacting Protein Structures for
Interface Prediction [2.697420611471228]
DIPS-Plusはタンパク質界面の幾何学的深層学習のための42,112複合体の強化された機能豊富なデータセットである。
DIPSの以前のバージョンは、与えられたタンパク質複合体を構成する原子のカルテシアン座標とタイプのみを含む。
DIPS-Plusには、プロテクション指標、半球アミノ酸組成、および各アミノ酸に対する新しいプロファイル隠れマルコフモデル(HMM)ベースの配列機能を含む、新しい残基レベルの特徴が多数含まれている。
論文 参考訳(メタデータ) (2021-06-06T23:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。