論文の概要: TFBS-Finder: Deep Learning-based Model with DNABERT and Convolutional Networks to Predict Transcription Factor Binding Sites
- arxiv url: http://arxiv.org/abs/2502.01311v1
- Date: Mon, 03 Feb 2025 12:41:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:01:20.321007
- Title: TFBS-Finder: Deep Learning-based Model with DNABERT and Convolutional Networks to Predict Transcription Factor Binding Sites
- Title(参考訳): TFBS-Finder:DNABERTと畳み込みネットワークを用いた深層学習モデルによる転写因子結合部位の予測
- Authors: Nimisha Ghosh, Pratik Dutta, Daniele Santoni,
- Abstract要約: 我々は,事前学習したDNABERT,CNNモジュール,MCBAMモジュール,MSCAモジュール,出力モジュールを用いたディープラーニングモデルを開発した。
TFBS-Finderは165のENCODE ChIP-seqデータセットでトレーニングされ、テストされる。
- 参考スコア(独自算出の注目度): 4.293083690039339
- License:
- Abstract: Transcription factors are proteins that regulate the expression of genes by binding to specific genomic regions known as Transcription Factor Binding Sites (TFBSs), typically located in the promoter regions of those genes. Accurate prediction of these binding sites is essential for understanding the complex gene regulatory networks underlying various cellular functions. In this regard, many deep learning models have been developed for such prediction, but there is still scope of improvement. In this work, we have developed a deep learning model which uses pre-trained DNABERT, a Convolutional Neural Network (CNN) module, a Modified Convolutional Block Attention Module (MCBAM), a Multi-Scale Convolutions with Attention (MSCA) module and an output module. The pre-trained DNABERT is used for sequence embedding, thereby capturing the long-term dependencies in the DNA sequences while the CNN, MCBAM and MSCA modules are useful in extracting higher-order local features. TFBS-Finder is trained and tested on 165 ENCODE ChIP-seq datasets. We have also performed ablation studies as well as cross-cell line validations and comparisons with other models. The experimental results show the superiority of the proposed method in predicting TFBSs compared to the existing methodologies. The codes and the relevant datasets are publicly available at https://github.com/NimishaGhosh/TFBS-Finder/.
- Abstract(参考訳): 転写因子は、典型的にはこれらの遺伝子のプロモーター領域に位置する転写因子結合部位(TFBSs)と呼ばれる特定のゲノム領域に結合することで、遺伝子発現を制御するタンパク質である。
これらの結合部位の正確な予測は、様々な細胞機能の根底にある複雑な遺伝子制御ネットワークを理解するために不可欠である。
このような予測のために多くのディープラーニングモデルが開発されてきたが、まだ改善の余地がある。
本研究では,事前学習したDNABERT,CNNモジュール,MCBAMモジュール,MSCAモジュール,出力モジュールを用いたディープラーニングモデルを開発した。
予め訓練されたDNABERTは配列の埋め込みに使用され、CNN、MCBAM、MSCAモジュールは高次局所的特徴の抽出に有用である。
TFBS-Finderは165のENCODE ChIP-seqデータセットでトレーニングされ、テストされる。
また, Ablation 研究や, セル間の線形検証, および他のモデルとの比較を行った。
実験の結果,提案手法は既存の手法と比較してTFBSの予測に優れていることが示された。
コードと関連するデータセットはhttps://github.com/NimishaGhosh/TFBS-Finder/で公開されている。
関連論文リスト
- Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - Predicting Transcription Factor Binding Sites using Transformer based
Capsule Network [0.8793721044482612]
転写因子の結合部位の予測は、どのように遺伝子発現を調節し、この制御を治療目的でどのように調節するかを理解するために重要である。
DNABERT-Capは、多数のゲノムDNA配列が事前訓練された双方向エンコーダであり、最終予測にカプセル層が関与する。
DNABERT-Capは、既存の最先端のディープラーニングベースの予測器vizと比較されている。DeepARC、DeepTF、CNN-Zeng、DeepBindは、それらを上回っている。
論文 参考訳(メタデータ) (2023-10-23T09:08:57Z) - Convolutional Monge Mapping Normalization for learning on sleep data [63.22081662149488]
我々は、CMMN(Convolutional Monge Mapping Normalization)と呼ばれる新しい手法を提案する。
CMMNは、そのパワースペクトル密度(PSD)をトレーニングデータに基づいて推定されるワッサーシュタインバリセンタに適応させるために、信号をフィルタリングする。
睡眠脳波データに関する数値実験により、CMMNはニューラルネットワークアーキテクチャから独立して、顕著で一貫したパフォーマンス向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-30T08:24:01Z) - HAC-Net: A Hybrid Attention-Based Convolutional Neural Network for
Highly Accurate Protein-Ligand Binding Affinity Prediction [0.0]
本稿では,3次元畳み込みニューラルネットワークと2つのグラフ畳み込みニューラルネットワークからなる新しいディープラーニングアーキテクチャを提案する。
HAC-NetはPDBbind v.2016コアセットの最先端結果を取得する。
我々は,このモデルを,構造に基づく生体分子特性予測に関連する幅広い教師付き学習問題に拡張できると考えている。
論文 参考訳(メタデータ) (2022-12-23T16:14:53Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - Brain Network Transformer [13.239896897835191]
脳ネットワーク解析のためのトランスフォーマーモデルについて検討する。
データの特徴によって駆動される私たちは、脳ネットワークを、一定のサイズと順序のノードを持つグラフとしてモデル化します。
我々は、ABIDEの大規模脳ネットワークデータセットとして唯一公開されているものについて、評価パイプラインを再標準化する。
論文 参考訳(メタデータ) (2022-10-13T02:30:06Z) - Isoform Function Prediction Using a Deep Neural Network [9.507435239304591]
研究によると、ヒトのマルチエクソン遺伝子のうち95%以上が代替スプライシングを受けている。
代替スプライシングは、ヒトの健康と病気において重要な役割を果たす。
このプロジェクトは条件付きデータとmRNA配列、発現プロファイル、遺伝子グラフなどの貴重な情報を使用する。
論文 参考訳(メタデータ) (2022-08-05T09:31:25Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Comparison of machine learning and deep learning techniques in promoter
prediction across diverse species [1.8899300124593648]
3つの高等真核生物のゲノム配列を用いたベクターエンコーディング法とプロモーター分類法を検討した。
酵母、A. タリアナおよび人間。
cnnは非プロモーター配列からのプロモーターの分類(バイナリ分類)やプロモーター配列の種別分類(マルチクラス分類)において優れていることがわかった。
論文 参考訳(メタデータ) (2021-05-17T08:15:41Z) - The Heterogeneity Hypothesis: Finding Layer-Wise Differentiated Network
Architectures [179.66117325866585]
我々は、通常見過ごされる設計空間、すなわち事前定義されたネットワークのチャネル構成を調整することを検討する。
この調整は、拡張ベースラインネットワークを縮小することで実現でき、性能が向上する。
画像分類、視覚追跡、画像復元のための様々なネットワークとデータセットで実験を行う。
論文 参考訳(メタデータ) (2020-06-29T17:59:26Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。