論文の概要: XAI-Driven Deep Learning for Protein Sequence Functional Group Classification
- arxiv url: http://arxiv.org/abs/2511.13791v1
- Date: Sun, 16 Nov 2025 18:10:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.727663
- Title: XAI-Driven Deep Learning for Protein Sequence Functional Group Classification
- Title(参考訳): XAIによるタンパク質配列機能グループ分類のためのディープラーニング
- Authors: Pratik Chakraborty, Aryan Bhargava,
- Abstract要約: 本研究では,タンパク質データバンク(PDB)由来のタンパク質配列の機能的グループ分類のためのディープラーニングフレームワークを提案する。
4つのアーキテクチャが実装された: Convolutional Neural Network (CNN)、Bidirectional Long Short-Term Memory (BiLSTM)、CNN-BiLSTM hybrid、CNN with Attention。
CNNは91.8%の検証精度を達成し、局所的なモチーフ検出の有効性を示した。
- 参考スコア(独自算出の注目度): 0.7734726150561088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proteins perform essential biological functions, and accurate classification of their sequences is critical for understanding structure-function relationships, enzyme mechanisms, and molecular interactions. This study presents a deep learning-based framework for functional group classification of protein sequences derived from the Protein Data Bank (PDB). Four architectures were implemented: Convolutional Neural Network (CNN), Bidirectional Long Short-Term Memory (BiLSTM), CNN-BiLSTM hybrid, and CNN with Attention. Each model was trained using k-mer integer encoding to capture both local and long-range dependencies. Among these, the CNN achieved the highest validation accuracy of 91.8%, demonstrating the effectiveness of localized motif detection. Explainable AI techniques, including Grad-CAM and Integrated Gradients, were applied to interpret model predictions and identify biologically meaningful sequence motifs. The discovered motifs, enriched in histidine, aspartate, glutamate, and lysine, represent amino acid residues commonly found in catalytic and metal-binding regions of transferase enzymes. These findings highlight that deep learning models can uncover functionally relevant biochemical signatures, bridging the gap between predictive accuracy and biological interpretability in protein sequence analysis.
- Abstract(参考訳): タンパク質は重要な生物学的機能を果たし、その配列の正確な分類は構造-機能関係、酵素機構、分子間相互作用を理解するために重要である。
本研究では,タンパク質データバンク(PDB)由来のタンパク質配列の機能的グループ分類のためのディープラーニングに基づくフレームワークを提案する。
4つのアーキテクチャが実装された: Convolutional Neural Network (CNN)、Bidirectional Long Short-Term Memory (BiLSTM)、CNN-BiLSTM hybrid、CNN with Attention。
各モデルは、k-mer整数エンコーディングを使用して、ローカルおよび長距離の依存関係をキャプチャするために訓練された。
これらのうち、CNNは91.8%の検証精度を達成し、局所的なモチーフ検出の有効性を実証した。
Grad-CAMやIntegrated Gradientsといった説明可能なAI技術は、モデル予測を解釈し、生物学的に意味のあるシーケンスモチーフを特定するために応用された。
ヒスチジン、アスパラギン酸、グルタミン酸、リジンに富んだモチーフは、酵素酵素の触媒および金属結合領域で一般的に見られるアミノ酸残基である。
これらの結果から, 深層学習モデルは, タンパク質配列解析における予測精度と生物学的解釈可能性とのギャップを埋めることで, 機能的な生化学的シグネチャを明らかにすることができることがわかった。
関連論文リスト
- PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs [88.98041407783502]
PRINGは、タンパク質とタンパク質の相互作用予測をグラフレベルで評価する最初のベンチマークである。
PRINGは、21,484タンパク質と186,818の相互作用からなる高品質な多種PPIネットワークデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-07-07T15:21:05Z) - KEPLA: A Knowledge-Enhanced Deep Learning Framework for Accurate Protein-Ligand Binding Affinity Prediction [60.23701115249195]
KEPLAは、遺伝子オントロジーとリガンド特性の事前知識を統合し、予測性能を向上させる新しいディープラーニングフレームワークである。
2つのベンチマークデータセットの実験では、KEPLAは一貫して最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-16T08:02:42Z) - Bidirectional Hierarchical Protein Multi-Modal Representation Learning [4.682021474006426]
大規模タンパク質配列で事前訓練されたタンパク質言語モデル(pLM)は、配列ベースタスクにおいて大きな成功を収めた。
3次元構造情報を活用するために設計されたグラフニューラルネットワーク(GNN)は、タンパク質関連予測タスクにおいて有望な一般化を示している。
本稿では、よりリッチで包括的なタンパク質表現を捉えるために、双方向かつ階層的な(双階層的な)融合アプローチを提案する。
論文 参考訳(メタデータ) (2025-04-07T06:47:49Z) - Interpretable Graph Kolmogorov-Arnold Networks for Multi-Cancer Classification and Biomarker Identification using Multi-Omics Data [36.92842246372894]
Multi-Omics Graph Kolmogorov-Arnold Network (MOGKAN)は、メッセンジャーRNA、マイクロRNA配列、DNAメチル化サンプルを利用するディープラーニングフレームワークである。
グラフに基づく深層学習とマルチオミクスデータを統合することにより,提案手法は頑健な予測性能と解釈可能性を示す。
論文 参考訳(メタデータ) (2025-03-29T02:14:05Z) - Advanced atom-level representations for protein flexibility prediction utilizing graph neural networks [0.0]
我々は,タンパク質の原子レベルでの表現を学習し,タンパク質3D構造からB因子を予測するグラフニューラルネットワーク(GNN)を提案する。
Meta-GNNモデルは、4k以上のタンパク質の大規模かつ多様なテストセット上での相関係数0.71を達成する。
論文 参考訳(メタデータ) (2024-08-22T16:15:13Z) - NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文 参考訳(メタデータ) (2024-03-21T13:27:57Z) - Deep Learning Methods for Protein Family Classification on PDB
Sequencing Data [0.0]
本稿では,新たな双方向LSTMや畳み込みモデルなどのディープラーニングフレームワークの性能を,広く利用可能なシークエンシングデータ上で実証し比較する。
我々のディープラーニングモデルは従来の機械学習手法よりも優れた性能を示し、畳み込みアーキテクチャは最も印象的な推論性能を提供する。
論文 参考訳(メタデータ) (2022-07-14T06:11:32Z) - PersGNN: Applying Topological Data Analysis and Geometric Deep Learning
to Structure-Based Protein Function Prediction [0.07340017786387766]
本研究では,タンパク質構造を分離し,タンパク質データバンク内のタンパク質の機能的アノテーションを作成する。
本稿では,グラフ表現学習とトポロジカルデータ解析を組み合わせた,エンドツーエンドのトレーニング可能なディープラーニングモデルPersGNNを提案する。
論文 参考訳(メタデータ) (2020-10-30T02:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。