論文の概要: A novel RNA pseudouridine site prediction model using Utility Kernel and
data-driven parameters
- arxiv url: http://arxiv.org/abs/2311.16132v1
- Date: Thu, 2 Nov 2023 08:32:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-03 13:30:56.068056
- Title: A novel RNA pseudouridine site prediction model using Utility Kernel and
data-driven parameters
- Title(参考訳): ユーティリティカーネルとデータ駆動パラメータを用いたRNA疑似ウリジンサイト予測モデル
- Authors: Sourabh Patil, Archana Mathur, Raviprasad Aduri, Snehanshu Saha
- Abstract要約: PseudouridineはRNAの最も頻繁に起こる修飾である。
特定のRNA配列における疑似ウリジン部位を予測する既存のモデルは、主にユーザ定義の機能に依存する。
本稿では,経済のユーティリティ理論に基づく支援ベクトルマシン(SVM)カーネルを提案する。
- 参考スコア(独自算出の注目度): 0.7373617024876725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RNA protein Interactions (RPIs) play an important role in biological systems.
Recently, we have enumerated the RPIs at the residue level and have elucidated
the minimum structural unit (MSU) in these interactions to be a stretch of five
residues (Nucleotides/amino acids). Pseudouridine is the most frequent
modification in RNA. The conversion of uridine to pseudouridine involves
interactions between pseudouridine synthase and RNA. The existing models to
predict the pseudouridine sites in a given RNA sequence mainly depend on
user-defined features such as mono and dinucleotide composition/propensities of
RNA sequences. Predicting pseudouridine sites is a non-linear classification
problem with limited data points. Deep Learning models are efficient
discriminators when the data set size is reasonably large and fail when there
is a paucity of data ($<1000$ samples). To mitigate this problem, we propose a
Support Vector Machine (SVM) Kernel based on utility theory from Economics, and
using data-driven parameters (i.e. MSU) as features. For this purpose, we have
used position-specific tri/quad/pentanucleotide composition/propensity
(PSPC/PSPP) besides nucleotide and dineculeotide composition as features. SVMs
are known to work well in small data regimes and kernels in SVM are designed to
classify non-linear data. The proposed model outperforms the existing
state-of-the-art models significantly (10%-15% on average).
- Abstract(参考訳): RNAタンパク質相互作用(RPI)は生物学的システムにおいて重要な役割を果たす。
近年,RPIを残基レベルで列挙し,これらの相互作用における最小構造単位(MSU)を5つの残基(ヌクレオチド/アミノ酸)のストレッチとして解明している。
PseudouridineはRNAの最も頻繁に起こる修飾である。
ウリジンの擬ウリジンへの変換には、擬ウリジン合成酵素とRNAの相互作用が含まれる。
与えられたRNA配列における疑似ウリジン部位を予測する既存のモデルは、主にRNA配列のモノおよびジヌクレオチド合成/プロビエンスのようなユーザー定義の特徴に依存する。
疑似ウリジン部位の予測は、限られたデータ点を持つ非線形分類問題である。
ディープラーニングモデルは、データセットのサイズが適度に大きい場合の効率的な判別者であり、大量のデータがある場合(<1000$サンプル)に失敗する。
この問題を軽減するため,経済のユーティリティ理論に基づく支援ベクトルマシン(SVM)カーネルを提案し,データ駆動パラメータ(MSU)を特徴として用いた。
そこで我々は, 位置特異的なtri/quad/pentanucleotide composition/propensity (pspc/pspp) を用いた。
SVMは小さなデータ構造でうまく機能することが知られており、SVMのカーネルは非線形データを分類するために設計されている。
提案モデルでは,既存の最先端モデル(平均10%~15%)を著しく上回る性能を示した。
関連論文リスト
- Character-level Tokenizations as Powerful Inductive Biases for RNA Foundational Models [0.0]
RNAの挙動を理解し予測することは、RNAの構造と相互作用の複雑さのために困難である。
現在のRNAモデルは、タンパク質ドメインで観測された性能とはまだ一致していない。
ChaRNABERTは、確立されたベンチマークでいくつかのタスクで最先端のパフォーマンスに到達することができる。
論文 参考訳(メタデータ) (2024-11-05T21:56:16Z) - BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - Regressor-free Molecule Generation to Support Drug Response Prediction [83.25894107956735]
目標IC50スコアに基づく条件生成により、より効率的なサンプリングスペースを得ることができる。
回帰自由誘導は、拡散モデルのスコア推定と、数値ラベルに基づく回帰制御モデルの勾配を結合する。
論文 参考訳(メタデータ) (2024-05-23T13:22:17Z) - scHyena: Foundation Model for Full-Length Single-Cell RNA-Seq Analysis
in Brain [46.39828178736219]
我々はこれらの課題に対処し、脳内のscRNA-seq解析の精度を高めるために設計された基礎モデルであるscHyenaを紹介する。
scHyenaは、線形適応層、遺伝子埋め込みによる位置エンコーディング、および双方向ハイエナ演算子を備えている。
これにより、生データから情報を失うことなく、全長の scRNA-seq データを処理できる。
論文 参考訳(メタデータ) (2023-10-04T10:30:08Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Optirank: classification for RNA-Seq data with optimal ranking reference
genes [0.0]
そこで我々は,ロジスティック回帰モデルであるOptiicrankを提案し,モデルと遺伝子のパラメータを同時に学習し,ランキングの基準セットとして使用する。
また、列車データと試験データの間に異なる種類の分散シフトを示す実際の分類タスクについても検討する。
論文 参考訳(メタデータ) (2023-01-11T10:49:06Z) - MuCoMiD: A Multitask Convolutional Learning Framework for miRNA-Disease
Association Prediction [0.4061135251278187]
本稿では, MuCoMiD と呼ぶ新しいマルチタスク畳み込み方式を提案する。
MuCoMiDは、4つの異種生物情報ソースからの知識を取り入れつつ、自動特徴抽出を可能にする。
我々は、標準ベンチマークデータセットに関する大規模な実験と、より大規模な独立したテストセットとケーススタディを構築した。
MuCoMiDは、HMDDv2.0とHMDDv3.0データセットで5倍のCV評価を少なくとも5%改善し、最先端のアプローチよりも、目に見えない病気や目に見えない病気を持つ大規模独立テストセットで少なくとも49%改善した。
論文 参考訳(メタデータ) (2021-08-08T10:01:46Z) - Rank-R FNN: A Tensor-Based Learning Model for High-Order Data
Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。
まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。
Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-11T16:37:32Z) - Approximate kNN Classification for Biomedical Data [1.1852406625172218]
Single-cell RNA-seq (scRNA-seq) は、将来性はあるが重要な計算課題を持つDNAシークエンシング技術である。
scRNA-seqデータにおけるkNN分類のタスクに近似した近接探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-03T18:30:43Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。