論文の概要: F5C-finder: An Explainable and Ensemble Biological Language Model for Predicting 5-Formylcytidine Modifications on mRNA
- arxiv url: http://arxiv.org/abs/2404.13265v1
- Date: Sat, 20 Apr 2024 04:24:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 19:49:10.300273
- Title: F5C-finder: An Explainable and Ensemble Biological Language Model for Predicting 5-Formylcytidine Modifications on mRNA
- Title(参考訳): F5Cファインダー:mRNA上の5-ホルミルシチジン修飾を予測するための説明可能な生物学的言語モデル
- Authors: Guohao Wang, Ting Liu, Hongqiang Lyu, Ze Liu,
- Abstract要約: f5Cファインダーは、f5C認識のためのアンサンブルニューラルネットワークベースのモデルである。
AUCは0.807と0.827で、SOTA(State-of-the-art)のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 14.254844324449351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a prevalent and dynamically regulated epigenetic modification, 5-formylcytidine (f5C) is crucial in various biological processes. However, traditional experimental methods for f5C detection are often laborious and time-consuming, limiting their ability to map f5C sites across the transcriptome comprehensively. While computational approaches offer a cost-effective and high-throughput alternative, no recognition model for f5C has been developed to date. Drawing inspiration from language models in natural language processing, this study presents f5C-finder, an ensemble neural network-based model utilizing multi-head attention for the identification of f5C. Five distinct feature extraction methods were employed to construct five individual artificial neural networks, and these networks were subsequently integrated through ensemble learning to create f5C-finder. 10-fold cross-validation and independent tests demonstrate that f5C-finder achieves state-of-the-art (SOTA) performance with AUC of 0.807 and 0.827, respectively. The result highlights the effectiveness of biological language model in capturing both the order (sequential) and functional meaning (semantics) within genomes. Furthermore, the built-in interpretability allows us to understand what the model is learning, creating a bridge between identifying key sequential elements and a deeper exploration of their biological functions.
- Abstract(参考訳): 5-ホルミルシチジン(5-formylcytidine, 5-formylcytidine, 5-formylcytidine, 5-formylcytidine, 5-formylcytidine, 5-formylcytidine, 5-formylcytidine)は、様々な生物学的過程において重要である。
しかし、従来のf5C検出のための実験的手法は、しばしば手間がかかり、時間を要するため、f5Cのサイトを包括的に転写酵素にマッピングする能力は制限される。
計算手法はコスト効率と高スループットの代替手段を提供するが、f5Cの認識モデルは開発されていない。
自然言語処理における言語モデルからインスピレーションを得て,f5Cの同定にマルチヘッドアテンションを用いたアンサンブルニューラルネットワークモデルであるf5Cファインダーを提案する。
5つの異なる特徴抽出法を用いて、5つの個別のニューラルネットワークを構築し、これらのネットワークはその後、アンサンブル学習を通じて統合され、f5Cファインダーを生成する。
10倍のクロスバリデーションと独立試験により, AUCが0.807, 0.827で, f5CファインダーがSOTA(State-of-the-art)性能を達成した。
この結果は、ゲノム内の順序(順序)と機能的意味(意味)の両方をキャプチャする生物学的言語モデルの有効性を強調している。
さらに、組み込まれた解釈可能性により、モデルが何を学習しているかを理解することができ、キーシーケンシャルな要素の識別と、それらの生物学的機能のより深い探索の間に橋渡しができる。
関連論文リスト
- Causal Representation Learning from Multimodal Biological Observations [57.00712157758845]
我々は,マルチモーダルデータに対するフレキシブルな識別条件の開発を目指している。
我々は、各潜伏成分の識別可能性を保証するとともに、サブスペース識別結果を事前の作業から拡張する。
我々の重要な理論的要素は、異なるモーダル間の因果関係の構造的空間性である。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - Generating Multi-Modal and Multi-Attribute Single-Cell Counts with CFGen [76.02070962797794]
マルチモーダル単細胞数に対するフローベース条件生成モデルであるセルフロー・フォー・ジェネレーションを提案する。
本研究は, 新規な生成タスクを考慮に入れた上で, 重要な生物学的データ特性の回復性の向上を示唆するものである。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - YZS-model: A Predictive Model for Organic Drug Solubility Based on Graph Convolutional Networks and Transformer-Attention [9.018408514318631]
伝統的な手法は複雑な分子構造を見逃し、不正確な結果をもたらすことが多い。
本稿では,グラフ畳み込みネットワーク(GCN),トランスフォーマーアーキテクチャ,Long Short-Term Memory(LSTM)ネットワークを統合するディープラーニングフレームワークであるYZS-Modelを紹介する。
YZS-Modelは、R2$ 0.59、RMSE$ 0.57を達成し、ベンチマークモデルを上回った。
論文 参考訳(メタデータ) (2024-06-27T12:40:29Z) - An evaluation of GPT models for phenotype concept recognition [0.4715973318447338]
臨床表現型および表現型アノテーションのためのGPT(Generative Pre-trained Transformer)モデルの性能について検討した。
その結果、適切な設定で、これらのモデルが芸術的パフォーマンスの状態を達成できることが示されている。
論文 参考訳(メタデータ) (2023-09-29T12:06:55Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - DDeMON: Ontology-based function prediction by Deep Learning from Dynamic
Multiplex Networks [0.7349727826230864]
本研究の目的は、遺伝子発現の時間的ダイナミクスとシステムのレベル情報の融合がいかにして新しい遺伝子機能を予測するかを検討することである。
時間依存型多スケール生体情報を用いた関数アノテーションのスケーラブルなシステムレベルの推論手法であるDDeMONを提案する。
論文 参考訳(メタデータ) (2023-02-08T06:53:02Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - MuCoMiD: A Multitask Convolutional Learning Framework for miRNA-Disease
Association Prediction [0.4061135251278187]
本稿では, MuCoMiD と呼ぶ新しいマルチタスク畳み込み方式を提案する。
MuCoMiDは、4つの異種生物情報ソースからの知識を取り入れつつ、自動特徴抽出を可能にする。
我々は、標準ベンチマークデータセットに関する大規模な実験と、より大規模な独立したテストセットとケーススタディを構築した。
MuCoMiDは、HMDDv2.0とHMDDv3.0データセットで5倍のCV評価を少なくとも5%改善し、最先端のアプローチよりも、目に見えない病気や目に見えない病気を持つ大規模独立テストセットで少なくとも49%改善した。
論文 参考訳(メタデータ) (2021-08-08T10:01:46Z) - Brain Image Synthesis with Unsupervised Multivariate Canonical
CSC$\ell_4$Net [122.8907826672382]
我々は,新しいCSC$ell_4$Netを用いて,イントレとイントラモーダルの両方にまたがる専用特徴を学習することを提案する。
論文 参考訳(メタデータ) (2021-03-22T05:19:40Z) - TaBooN -- Boolean Network Synthesis Based on Tabu Search [0.0]
Omics-Technologyは、複数の次元とスケールで分子データを生成することによって生物学の研究に革命をもたらした。
生物学的ネットワークは、遺伝子やタンパク質などのコンポーネントを参照するノードと、それらの相互作用を形式化するエッジ/弧から構成される。
論文 参考訳(メタデータ) (2020-09-08T08:56:14Z) - FIVES: Feature Interaction Via Edge Search for Large-Scale Tabular Data [106.76845921324704]
本稿では,FIVES (Feature Interaction Via Edge Search) という新しい手法を提案する。
FIVESは、定義された特徴グラフ上のエッジを探すために、インタラクティブな特徴生成のタスクを定式化する。
本稿では,対話的特徴の探索を動機づける理論的証拠を提示する。
論文 参考訳(メタデータ) (2020-07-29T03:33:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。