論文の概要: A novel RNA pseudouridine site prediction model using Utility Kernel and
data-driven parameters
- arxiv url: http://arxiv.org/abs/2311.16132v1
- Date: Thu, 2 Nov 2023 08:32:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-03 13:30:56.068056
- Title: A novel RNA pseudouridine site prediction model using Utility Kernel and
data-driven parameters
- Title(参考訳): ユーティリティカーネルとデータ駆動パラメータを用いたRNA疑似ウリジンサイト予測モデル
- Authors: Sourabh Patil, Archana Mathur, Raviprasad Aduri, Snehanshu Saha
- Abstract要約: PseudouridineはRNAの最も頻繁に起こる修飾である。
特定のRNA配列における疑似ウリジン部位を予測する既存のモデルは、主にユーザ定義の機能に依存する。
本稿では,経済のユーティリティ理論に基づく支援ベクトルマシン(SVM)カーネルを提案する。
- 参考スコア(独自算出の注目度): 0.7373617024876725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RNA protein Interactions (RPIs) play an important role in biological systems.
Recently, we have enumerated the RPIs at the residue level and have elucidated
the minimum structural unit (MSU) in these interactions to be a stretch of five
residues (Nucleotides/amino acids). Pseudouridine is the most frequent
modification in RNA. The conversion of uridine to pseudouridine involves
interactions between pseudouridine synthase and RNA. The existing models to
predict the pseudouridine sites in a given RNA sequence mainly depend on
user-defined features such as mono and dinucleotide composition/propensities of
RNA sequences. Predicting pseudouridine sites is a non-linear classification
problem with limited data points. Deep Learning models are efficient
discriminators when the data set size is reasonably large and fail when there
is a paucity of data ($<1000$ samples). To mitigate this problem, we propose a
Support Vector Machine (SVM) Kernel based on utility theory from Economics, and
using data-driven parameters (i.e. MSU) as features. For this purpose, we have
used position-specific tri/quad/pentanucleotide composition/propensity
(PSPC/PSPP) besides nucleotide and dineculeotide composition as features. SVMs
are known to work well in small data regimes and kernels in SVM are designed to
classify non-linear data. The proposed model outperforms the existing
state-of-the-art models significantly (10%-15% on average).
- Abstract(参考訳): RNAタンパク質相互作用(RPI)は生物学的システムにおいて重要な役割を果たす。
近年,RPIを残基レベルで列挙し,これらの相互作用における最小構造単位(MSU)を5つの残基(ヌクレオチド/アミノ酸)のストレッチとして解明している。
PseudouridineはRNAの最も頻繁に起こる修飾である。
ウリジンの擬ウリジンへの変換には、擬ウリジン合成酵素とRNAの相互作用が含まれる。
与えられたRNA配列における疑似ウリジン部位を予測する既存のモデルは、主にRNA配列のモノおよびジヌクレオチド合成/プロビエンスのようなユーザー定義の特徴に依存する。
疑似ウリジン部位の予測は、限られたデータ点を持つ非線形分類問題である。
ディープラーニングモデルは、データセットのサイズが適度に大きい場合の効率的な判別者であり、大量のデータがある場合(<1000$サンプル)に失敗する。
この問題を軽減するため,経済のユーティリティ理論に基づく支援ベクトルマシン(SVM)カーネルを提案し,データ駆動パラメータ(MSU)を特徴として用いた。
そこで我々は, 位置特異的なtri/quad/pentanucleotide composition/propensity (pspc/pspp) を用いた。
SVMは小さなデータ構造でうまく機能することが知られており、SVMのカーネルは非線形データを分類するために設計されている。
提案モデルでは,既存の最先端モデル(平均10%~15%)を著しく上回る性能を示した。
関連論文リスト
- scHyena: Foundation Model for Full-Length Single-Cell RNA-Seq Analysis
in Brain [46.39828178736219]
我々はこれらの課題に対処し、脳内のscRNA-seq解析の精度を高めるために設計された基礎モデルであるscHyenaを紹介する。
scHyenaは、線形適応層、遺伝子埋め込みによる位置エンコーディング、および双方向ハイエナ演算子を備えている。
これにより、生データから情報を失うことなく、全長の scRNA-seq データを処理できる。
論文 参考訳(メタデータ) (2023-10-04T10:30:08Z) - Fast and Functional Structured Data Generators Rooted in
Out-of-Equilibrium Physics [62.997667081978825]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Optirank: classification for RNA-Seq data with optimal ranking reference
genes [0.0]
そこで我々は,ロジスティック回帰モデルであるOptiicrankを提案し,モデルと遺伝子のパラメータを同時に学習し,ランキングの基準セットとして使用する。
また、列車データと試験データの間に異なる種類の分散シフトを示す実際の分類タスクについても検討する。
論文 参考訳(メタデータ) (2023-01-11T10:49:06Z) - Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文 参考訳(メタデータ) (2022-08-10T13:30:58Z) - MuCoMiD: A Multitask Convolutional Learning Framework for miRNA-Disease
Association Prediction [0.4061135251278187]
本稿では, MuCoMiD と呼ぶ新しいマルチタスク畳み込み方式を提案する。
MuCoMiDは、4つの異種生物情報ソースからの知識を取り入れつつ、自動特徴抽出を可能にする。
我々は、標準ベンチマークデータセットに関する大規模な実験と、より大規模な独立したテストセットとケーススタディを構築した。
MuCoMiDは、HMDDv2.0とHMDDv3.0データセットで5倍のCV評価を少なくとも5%改善し、最先端のアプローチよりも、目に見えない病気や目に見えない病気を持つ大規模独立テストセットで少なくとも49%改善した。
論文 参考訳(メタデータ) (2021-08-08T10:01:46Z) - Machine learning for plant microRNA prediction: A systematic review [0.0]
マイクロRNA(miRNA)は内在性の小さな非コードRNAであり、遺伝子調節に重要な役割を果たしている。
計算と機械学習に基づくアプローチがマイクロRNAの予測に採用されている。
本研究は,植物における識別のために開発された機械学習手法に焦点をあてる。
論文 参考訳(メタデータ) (2021-06-29T08:22:57Z) - Rank-R FNN: A Tensor-Based Learning Model for High-Order Data
Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。
まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。
Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-11T16:37:32Z) - Approximate kNN Classification for Biomedical Data [1.1852406625172218]
Single-cell RNA-seq (scRNA-seq) は、将来性はあるが重要な計算課題を持つDNAシークエンシング技術である。
scRNA-seqデータにおけるkNN分類のタスクに近似した近接探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-03T18:30:43Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。