論文の概要: LOCO-EPI: Leave-one-chromosome-out (LOCO) as a benchmarking paradigm for deep learning based prediction of enhancer-promoter interactions
- arxiv url: http://arxiv.org/abs/2504.00306v1
- Date: Tue, 01 Apr 2025 00:20:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:18:37.652565
- Title: LOCO-EPI: Leave-one-chromosome-out (LOCO) as a benchmarking paradigm for deep learning based prediction of enhancer-promoter interactions
- Title(参考訳): LOCO-EPI:Leave-one-chromosome-out (LOCO) は深層学習に基づくエンハンサー-プロモター相互作用の予測のためのベンチマークパラダイムである
- Authors: Muhammad Tahir, Shehroz S. Khan, James Davie, Soichiro Yamanaka, Ahmed Ashraf,
- Abstract要約: 本稿では,EPI(Enhancer-Promoter Interactions, Enhancer-Promoter Interactions)予測のための,より徹底的なトレーニングおよびテストパラダイムを提案する。
ランダムスプリッティング環境での学習およびテストにおいて高い精度を実現するディープラーニングアルゴリズムは,LOCO設定下での大幅な性能低下を示す。
また, ヌクレオチド配列のk-mer特徴を融合するEPI予測のための新しいハイブリッドディープニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 2.688011048756518
- License:
- Abstract: In mammalian and vertebrate genomes, the promoter regions of the gene and their distal enhancers may be located millions of base-pairs from each other, while a promoter may not interact with the closest enhancer. Since base-pair proximity is not a good indicator of these interactions, there is considerable work toward developing methods for predicting Enhancer-Promoter Interactions (EPI). Several machine learning methods have reported increasingly higher accuracies for predicting EPI. Typically, these approaches randomly split the dataset of Enhancer-Promoter (EP) pairs into training and testing subsets followed by model training. However, the aforementioned random splitting causes information leakage by assigning EP pairs from the same genomic region to both testing and training sets, leading to performance overestimation. In this paper we propose to use a more thorough training and testing paradigm i.e., Leave-one-chromosome-out (LOCO) cross-validation for EPI-prediction. We demonstrate that a deep learning algorithm, which gives higher accuracies when trained and tested on random-splitting setting, drops drastically in performance under LOCO setting, confirming overestimation of performance. We further propose a novel hybrid deep neural network for EPI-prediction that fuses k-mer features of the nucleotide sequence. We show that the hybrid architecture performs significantly better in the LOCO setting, demonstrating it can learn more generalizable aspects of EP interactions. With this paper we are also releasing the LOCO splitting-based EPI dataset. Research data is available in this public repository: https://github.com/malikmtahir/EPI
- Abstract(参考訳): 哺乳類および脊椎動物ゲノムでは、遺伝子とその遠位エンハンサーのプロモーター領域は、数百万のベースペアが互いに離れており、プロモーターは最も近いエンハンサーと相互作用しない。
ベースペア近接はこれらの相互作用のよい指標ではないため、エンハンサー・プロモター相互作用(EPI)を予測する方法の開発に向けてかなりの研究が進められている。
いくつかの機械学習手法は、EPIを予測するための精度がますます高まっていることを報告している。
通常、これらのアプローチでは、Enhancer-Promoter(EP)ペアのデータセットをトレーニングとテストサブセットにランダムに分割し、その後にモデルトレーニングを行う。
しかし、前述のランダムスプリッティングは、同じゲノム領域からEPペアをテストとトレーニングセットの両方に割り当てることで情報漏洩を引き起こし、性能の過大評価につながる。
本稿では,より徹底的なトレーニングとテストパラダイム,すなわちLOCO(Leave-one-chromosome-out)クロスバリデーションをEPI予測に適用することを提案する。
ランダムスプリッティング環境でのトレーニングおよびテストにおいて高い精度を実現するディープラーニングアルゴリズムは,LOCO設定下での大幅な性能低下を示し,性能の過大評価を確認する。
さらに, ヌクレオチド配列のk-mer特徴を融合するEPI予測のための新しいハイブリッドディープニューラルネットワークを提案する。
ハイブリッドアーキテクチャはLOCO設定において極めて優れた性能を示し、EPインタラクションのより一般化可能な側面を学習できることを実証する。
この論文では、LOCOスプリッティングベースのEPIデータセットもリリースしています。
研究データは、このパブリックリポジトリで利用可能である。
関連論文リスト
- AsEP: Benchmarking Deep Learning Methods for Antibody-specific Epitope Prediction [12.433560411515575]
抗体-抗原複合体構造データセット AsEP を導入する。
AsEPはその種類の中で最大であり、クラスタ化されたグループを提供する。
本稿では,タンパク質言語モデルとグラフニューラルネットワークによる構造モデリングの両方を活用する新しい手法WALLEを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:43:56Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Convolutional Monge Mapping Normalization for learning on sleep data [63.22081662149488]
我々は、CMMN(Convolutional Monge Mapping Normalization)と呼ばれる新しい手法を提案する。
CMMNは、そのパワースペクトル密度(PSD)をトレーニングデータに基づいて推定されるワッサーシュタインバリセンタに適応させるために、信号をフィルタリングする。
睡眠脳波データに関する数値実験により、CMMNはニューラルネットワークアーキテクチャから独立して、顕著で一貫したパフォーマンス向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-30T08:24:01Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Linear-scaling kernels for protein sequences and small molecules
outperform deep learning while providing uncertainty quantitation and
improved interpretability [5.623232537411766]
我々はGPモデルと高速畳み込みカーネルに適合する効率的でスケーラブルなアプローチを開発した。
xGPRと呼ばれるオープンソースのPythonライブラリを構築することで、これらの改善を実現しています。
xGPRは一般に、タンパク質や小分子の重要な性質を予測する上で、畳み込みニューラルネットワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-07T07:06:02Z) - HAC-Net: A Hybrid Attention-Based Convolutional Neural Network for
Highly Accurate Protein-Ligand Binding Affinity Prediction [0.0]
本稿では,3次元畳み込みニューラルネットワークと2つのグラフ畳み込みニューラルネットワークからなる新しいディープラーニングアーキテクチャを提案する。
HAC-NetはPDBbind v.2016コアセットの最先端結果を取得する。
我々は,このモデルを,構造に基づく生体分子特性予測に関連する幅広い教師付き学習問題に拡張できると考えている。
論文 参考訳(メタデータ) (2022-12-23T16:14:53Z) - A Supervised Machine Learning Approach for Sequence Based
Protein-protein Interaction (PPI) Prediction [4.916874464940376]
計算タンパク質間相互作用(PPI)予測技術は、時間、コスト、偽陽性相互作用の低減に大きく貢献する。
提案したソリューションをSeqPIPコンペティションの結果とともに紹介した。
論文 参考訳(メタデータ) (2022-03-23T18:27:25Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - PEP: Parameter Ensembling by Perturbation [13.221295194854642]
摂動(PEP)は、トレーニングから設定された最適パラメータのランダム摂動としてパラメータ値のアンサンブルを構成する。
PEPは性能を少し改善し、場合によっては経験的キャリブレーションを大幅に改善する。
PEPは、トレーニング中に発生したオーバーフィッティングのレベルを調査するために使用することができる。
論文 参考訳(メタデータ) (2020-10-24T00:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。