論文の概要: ResCap-DBP: A Lightweight Residual-Capsule Network for Accurate DNA-Binding Protein Prediction Using Global ProteinBERT Embeddings
- arxiv url: http://arxiv.org/abs/2507.20426v1
- Date: Sun, 27 Jul 2025 21:54:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.671483
- Title: ResCap-DBP: A Lightweight Residual-Capsule Network for Accurate DNA-Binding Protein Prediction Using Global ProteinBERT Embeddings
- Title(参考訳): ResCap-DBP:グローバルタンパクの埋め込みを用いたDNA結合タンパク質の正確な予測のための軽量残留カプセルネットワーク
- Authors: Samiul Based Shuvo, Tasnia Binte Mamun, U Rajendra Acharya,
- Abstract要約: 本稿では,残差学習に基づくエンコーダと1次元カプセルネットワークを組み合わせた新しいディープラーニングフレームワークResCap-DBPを提案する。
ProteinBERTの埋め込みは、大きなデータセット上の他の表現を大幅に上回る。
我々のモデルは、常に現在の最先端の手法より優れています。
- 参考スコア(独自算出の注目度): 9.626183317998143
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: DNA-binding proteins (DBPs) are integral to gene regulation and cellular processes, making their accurate identification essential for understanding biological functions and disease mechanisms. Experimental methods for DBP identification are time-consuming and costly, driving the need for efficient computational prediction techniques. In this study, we propose a novel deep learning framework, ResCap-DBP, that combines a residual learning-based encoder with a one-dimensional Capsule Network (1D-CapsNet) to predict DBPs directly from raw protein sequences. Our architecture incorporates dilated convolutions within residual blocks to mitigate vanishing gradient issues and extract rich sequence features, while capsule layers with dynamic routing capture hierarchical and spatial relationships within the learned feature space. We conducted comprehensive ablation studies comparing global and local embeddings from ProteinBERT and conventional one-hot encoding. Results show that ProteinBERT embeddings substantially outperform other representations on large datasets. Although one-hot encoding showed marginal advantages on smaller datasets, such as PDB186, it struggled to scale effectively. Extensive evaluations on four pairs of publicly available benchmark datasets demonstrate that our model consistently outperforms current state-of-the-art methods. It achieved AUC scores of 98.0% and 89.5% on PDB14189andPDB1075, respectively. On independent test sets PDB2272 and PDB186, the model attained top AUCs of 83.2% and 83.3%, while maintaining competitive performance on larger datasets such as PDB20000. Notably, the model maintains a well balanced sensitivity and specificity across datasets. These results demonstrate the efficacy and generalizability of integrating global protein representations with advanced deep learning architectures for reliable and scalable DBP prediction in diverse genomic contexts.
- Abstract(参考訳): DNA結合タンパク質(DBPs)は、遺伝子の調節や細胞プロセスに不可欠なので、生物学的機能や疾患のメカニズムを理解するのに、その正確な同定が不可欠である。
DBP識別のための実験手法は時間と費用がかかり、効率的な計算予測技術の必要性が増している。
本研究では,残差学習に基づくエンコーダと1次元カプセルネットワーク(1D-CapsNet)を組み合わせた新しいディープラーニングフレームワークResCap-DBPを提案し,DBPを生タンパク質配列から直接予測する。
我々のアーキテクチャでは,残差ブロック内に拡張畳み込みを組み込んで,勾配問題を緩和し,リッチなシーケンス特徴を抽出する一方,動的ルーティングを伴うカプセル層は,学習した特徴空間内の階層的および空間的関係を捕捉する。
タンパクBERTと従来のワンホットエンコーディングのグローバルな埋め込みとローカルな埋め込みを比較した総合的アブレーション研究を行った。
以上の結果から,BERTの埋め込みは大規模データセット上での他の表現よりも大幅に優れていた。
ワンホット符号化は、PDB186のような小さなデータセットに対して限界的な優位性を示したが、効果的にスケールするのに苦労した。
4組の公開ベンチマークデータセットに対する大規模な評価は、我々のモデルが常に最先端の手法より優れていることを示している。
PDB14189とPDB1075でそれぞれ98.0%と89.5%を記録した。
独立したテストセットであるPDB2272とPDB186では、PDB20000のような大規模データセットの競合性能を維持しながら、83.2%と83.3%のトップAUCを達成した。
特に、このモデルはデータセット間の感度と特異性のバランスがよく維持されている。
これらの結果は、グローバルなタンパク質表現と高度なディープラーニングアーキテクチャを統合することで、多様なゲノム状況下での信頼性とスケーラブルなDBP予測の有効性と一般化性を示す。
関連論文リスト
- Efficient Federated Learning with Heterogeneous Data and Adaptive Dropout [62.73150122809138]
Federated Learning(FL)は、複数のエッジデバイスを使用したグローバルモデルの協調トレーニングを可能にする、有望な分散機械学習アプローチである。
動的不均一モデルアグリゲーション(FedDH)と適応ドロップアウト(FedAD)の2つの新しい手法を備えたFedDHAD FLフレームワークを提案する。
これら2つの手法を組み合わせることで、FedDHADは精度(最大6.7%)、効率(最大2.02倍高速)、コスト(最大15.0%小型)で最先端のソリューションを大幅に上回っている。
論文 参考訳(メタデータ) (2025-07-14T16:19:00Z) - PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs [80.08310253195144]
PRINGは、タンパク質とタンパク質の相互作用予測をグラフレベルで評価する最初のベンチマークである。
PRINGは、21,484タンパク質と186,818の相互作用からなる高品質な多種PPIネットワークデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-07-07T15:21:05Z) - Hierarchical Multi-Label Contrastive Learning for Protein-Protein Interaction Prediction Across Organisms [2.399426243085768]
タンパク質間相互作用予測のための階層的コントラストフレームワークであるHIPPOを提案する。
提案手法は、タンパク質の機能クラス間の構造的関係をエミュレートする階層的コントラスト損失関数を含む。
ベンチマークデータセットの実験では、HIPPOが最先端のパフォーマンスを達成し、既存のメソッドを上回り、低データのレシエーションにおいて堅牢性を示すことが示されている。
論文 参考訳(メタデータ) (2025-07-03T15:41:04Z) - DISPROTBENCH: A Disorder-Aware, Task-Rich Benchmark for Evaluating Protein Structure Prediction in Realistic Biological Contexts [76.59606029593085]
DisProtBenchは、構造障害および複雑な生物学的条件下でタンパク質構造予測モデル(PSPM)を評価するためのベンチマークである。
DisProtBenchはデータの複雑さ、タスクの多様性、解釈可能性という3つの重要な軸にまたがっている。
その結果,機能的予測障害と相関する低信頼領域を有する障害下でのモデルロバスト性に有意な変動が認められた。
論文 参考訳(メタデータ) (2025-06-18T23:58:22Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - A general language model for peptide identification [4.044600688588866]
PDeepPPは、事前訓練されたタンパク質言語モデルとハイブリッドトランスフォーマー-畳み込みアーキテクチャを統合する統合ディープラーニングフレームワークである。
大規模かつ正確なペプチド分析を可能にすることにより、PDeepPPは生物医学研究と疾患治療のための新しい治療標的の発見を支援している。
論文 参考訳(メタデータ) (2025-02-21T17:31:22Z) - Multi-modal Representation Learning Enables Accurate Protein Function Prediction in Low-Data Setting [0.0]
HOPER(Holistic ProtEin Representation)は、低データ設定でタンパク質機能予測(PFP)を強化するために設計された新しいフレームワークである。
本研究は,生物研究におけるデータ制限を克服するためのマルチモーダル表現学習の有効性を強調した。
論文 参考訳(メタデータ) (2024-11-22T20:13:55Z) - Multiview Random Vector Functional Link Network for Predicting DNA-Binding Proteins [0.0]
本稿では,マルチビュー学習とニューラルネットワークアーキテクチャを融合したMvRVFL(Multiview random vector functional link)ネットワークを提案する。
提案したMvRVFLモデルは、後期および初期融合の利点を組み合わせ、異なるビューをまたいだ明確な正規化パラメータを可能にする。
DBPデータセット上で提案したMvRVFLモデルの性能はベースラインモデルよりも優れており、その優れた効果を示している。
論文 参考訳(メタデータ) (2024-09-04T10:14:17Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Decoding the Protein-ligand Interactions Using Parallel Graph Neural
Networks [6.460973806588082]
PLI予測のための知識表現と推論を統合するための新しい並列グラフニューラルネットワーク(GNN)を提案する。
本手法は, 先行候補の行動, 有効性, 生物物理特性を予測するための, 解釈可能な, 説明可能な人工知能(AI)ツールとして機能する。
論文 参考訳(メタデータ) (2021-11-30T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。