論文の概要: A Fusion-Driven Approach of Attention-Based CNN-BiLSTM for Protein Family Classification -- ProFamNet
- arxiv url: http://arxiv.org/abs/2410.17293v1
- Date: Mon, 21 Oct 2024 20:33:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:54:44.864897
- Title: A Fusion-Driven Approach of Attention-Based CNN-BiLSTM for Protein Family Classification -- ProFamNet
- Title(参考訳): タンパク質ファミリー分類のための注意に基づくCNN-BiLSTMの融合型アプローチ-ProFamNet
- Authors: Bahar Ali, Anwar Shah, Malik Niaz, Musadaq Mansoord, Sami Ullah, Muhammad Adnan,
- Abstract要約: 本研究では1D-CNN, BiLSTM, および注意機構の融合によるタンパク質ファミリーの分類モデルを提案する。
提案したモデル(ProFamNet)は450,953のパラメータと1.72MBのコンパクトサイズで優れたモデル効率を実現した。
- 参考スコア(独自算出の注目度): 0.8429750290021879
- License:
- Abstract: Advanced automated AI techniques allow us to classify protein sequences and discern their biological families and functions. Conventional approaches for classifying these protein families often focus on extracting N-Gram features from the sequences while overlooking crucial motif information and the interplay between motifs and neighboring amino acids. Recently, convolutional neural networks have been applied to amino acid and motif data, even with a limited dataset of well-characterized proteins, resulting in improved performance. This study presents a model for classifying protein families using the fusion of 1D-CNN, BiLSTM, and an attention mechanism, which combines spatial feature extraction, long-term dependencies, and context-aware representations. The proposed model (ProFamNet) achieved superior model efficiency with 450,953 parameters and a compact size of 1.72 MB, outperforming the state-of-the-art model with 4,578,911 parameters and a size of 17.47 MB. Further, we achieved a higher F1 score (98.30% vs. 97.67%) with more instances (271,160 vs. 55,077) in fewer training epochs (25 vs. 30).
- Abstract(参考訳): 高度な自動AI技術により、タンパク質配列を分類し、その生物学的な家族や機能を識別することができる。
これらのタンパク質ファミリーを分類するための従来のアプローチは、重要なモチーフ情報や、モチーフと隣接するアミノ酸との相互作用を見越しながら、配列からN-Gramの特徴を抽出することに焦点を当てることが多い。
近年、畳み込みニューラルネットワークがアミノ酸やモチーフデータに適用され、良好なタンパク質のデータセットが限られており、性能が向上している。
本研究では1D-CNN, BiLSTM, および空間的特徴抽出, 長期依存, 文脈認識表現を組み合わせた注意機構を融合したタンパク質ファミリーの分類モデルを提案する。
提案したモデル(ProFamNet)は450,953のパラメータと1.72MBのコンパクトなサイズで優れたモデル効率を実現し、4,578,911のパラメータと17.47MBのサイズの最先端モデルを上回った。
さらに,F1スコア(98.30% vs. 97.67%)の上昇(271,160 vs. 55,077)を,トレーニングエポックの減少(25 vs. 30)で達成した。
関連論文リスト
- Training Compute-Optimal Protein Language Models [48.79416103951816]
ほとんどのタンパク質言語モデルは、パフォーマンスが高くなるまで広範囲の計算資源で訓練されている。
調査は、9億3900万のタンパク質配列からなる膨大なデータセットに基づいて行われた。
私たちは、350万から107億のパラメータから5から200億のユニークなトークンまで、300以上のモデルをトレーニングしました。
論文 参考訳(メタデータ) (2024-11-04T14:58:37Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Protein sequence classification using natural language processing techniques [3.0846824529023396]
本研究では,75の標的タンパク質クラスからなるデータセットに自然言語処理(NLP)技術を適用した。
我々は,K-Nearest Neighbors (KNN), Multinomial Na"ive Bayes, Logistic Regression, Multi-Layer Perceptron (MLP), Decision Tree, Random Forest, XGBoost, Voting and Stacking Classifiers, Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), Transformer Modelなど,機械学習およびディープラーニングモデルについて検討した。
論文 参考訳(メタデータ) (2024-09-06T13:16:16Z) - Advanced atom-level representations for protein flexibility prediction utilizing graph neural networks [0.0]
我々は,タンパク質の原子レベルでの表現を学習し,タンパク質3D構造からB因子を予測するグラフニューラルネットワーク(GNN)を提案する。
Meta-GNNモデルは、4k以上のタンパク質の大規模かつ多様なテストセット上での相関係数0.71を達成する。
論文 参考訳(メタデータ) (2024-08-22T16:15:13Z) - Design Proteins Using Large Language Models: Enhancements and Comparative Analyses [12.140433802768733]
我々は、Mistral-7B1、Llama-2-7B2、Llama-3-8B3、gemma-7B4を含む事前訓練されたLLM群を採用し、有効なタンパク質配列を生成する。
我々はこれらのモデルを再訓練し、タンパク質関連データを処理し、生物学的に実現可能なタンパク質構造の生成を保証する。
実験の結果, 限られたデータであっても, 適応されたモデルは, 確立されたタンパク質中心モデルに匹敵する効率を示すことがわかった。
論文 参考訳(メタデータ) (2024-08-12T08:17:27Z) - Clustering for Protein Representation Learning [72.72957540484664]
本稿では,タンパク質の臨界成分を自動的に検出するニューラルネットワーククラスタリングフレームワークを提案する。
我々のフレームワークはタンパク質をグラフとして扱い、各ノードはアミノ酸を表し、各エッジはアミノ酸間の空間的またはシーケンシャルな接続を表す。
タンパク質の折り畳み分類, 酵素反応分類, 遺伝子期予測, 酵素コミッショニング数予測の4つの課題について検討した。
論文 参考訳(メタデータ) (2024-03-30T05:51:09Z) - NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文 参考訳(メタデータ) (2024-03-21T13:27:57Z) - UNet-2022: Exploring Dynamics in Non-isomorphic Architecture [52.04899592688968]
単純並列化による自己意図と畳み込みの利点を生かした並列非同型ブロックを提案する。
得られたU字型セグメンテーションモデルをUNet-2022と呼ぶ。
実験では、UNet-2022は明らかにレンジセグメンテーションタスクにおいてその性能を上回っている。
論文 参考訳(メタデータ) (2022-10-27T16:00:04Z) - EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm [111.17100512647619]
本稿では、実証された実用的な進化的アルゴリズム(EA)と類似したビジョントランスフォーマーの合理性を説明する。
本稿では,EA ベースのトランス (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。
画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチの有効性と優位性を示すものである。
論文 参考訳(メタデータ) (2022-06-19T04:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。