論文の概要: RNAMunin: A Deep Machine Learning Model for Non-coding RNA Discovery
- arxiv url: http://arxiv.org/abs/2507.11950v1
- Date: Wed, 16 Jul 2025 06:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.255737
- Title: RNAMunin: A Deep Machine Learning Model for Non-coding RNA Discovery
- Title(参考訳): RNAMunin:非コーディングRNA発見のためのディープラーニングモデル
- Authors: Lauren Lui, Torben Nielsen,
- Abstract要約: 非コードRNA(ncRNA)は細菌や古細菌の生理、ストレス応答、代謝の調節に重要である。
本稿では、ゲノム配列だけでncRNAを見つけることができる機械学習(ML)モデルRNAMuninを提案する。
RNAMuninは、サンフランシスコエスチュアリ16のサンプルから約60Gbpの長読型メタジェノムから抽出されたRfam配列に基づいて訓練されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Functional annotation of microbial genomes is often biased toward protein-coding genes, leaving a vast, unexplored landscape of non-coding RNAs (ncRNAs) that are critical for regulating bacterial and archaeal physiology, stress response and metabolism. Identifying ncRNAs directly from genomic sequence is a paramount challenge in bioinformatics and biology, essential for understanding the complete regulatory potential of an organism. This paper presents RNAMunin, a machine learning (ML) model that is capable of finding ncRNAs using genomic sequence alone. It is also computationally viable for large sequence datasets such as long read metagenomic assemblies with contigs totaling multiple Gbp. RNAMunin is trained on Rfam sequences extracted from approximately 60 Gbp of long read metagenomes from 16 San Francisco Estuary samples. We know of no other model that can detect ncRNAs based solely on genomic sequence at this scale. Since RNAMunin only requires genomic sequence as input, we do not need for an ncRNA to be transcribed to find it, i.e., we do not need transcriptomics data. We wrote this manuscript in a narrative style in order to best convey how RNAMunin was developed and how it works in detail. Unlike almost all current ML models, at approximately 1M parameters, RNAMunin is very small and very fast.
- Abstract(参考訳): 微生物ゲノムの機能的アノテーションは、しばしばタンパク質をコードする遺伝子に偏り、細菌や古細菌の生理、ストレス応答、代謝を調節するのに重要な非コードRNA(ncRNA)の広大な未発見の風景を残している。
DNARNAをゲノム配列から直接同定することは生物情報学と生物学における最重要課題であり、生物の完全な制御ポテンシャルを理解するのに不可欠である。
本稿では、ゲノム配列だけでncRNAを見つけることができる機械学習(ML)モデルRNAMuninを提案する。
また、複数のGbpのコンティグを持つ長い読み上げメタゲノミクスアセンブリのような大規模なシーケンスデータセットでも計算可能である。
RNAMuninは、サンフランシスコエスチュアリ16のサンプルから約60Gbpの長読型メタジェノムから抽出されたRfam配列に基づいて訓練されている。
我々は、このスケールでゲノム配列のみに基づくncRNAを検出できるモデルが他にないことを知っている。
RNAMuninは入力としてゲノム配列のみを必要とするため、RNARNAを転写する必要はない。
この写本はRNAMuninがどのように開発されたのか、どのように機能するのかを最もよく知るために、物語形式で書きました。
現在のほとんどのMLモデルとは異なり、約100万のパラメータではRNAMuninは非常に小さく、非常に高速である。
関連論文リスト
- CircFormerMoE: An End-to-End Deep Learning Framework for Circular RNA Splice Site Detection and Pairing in Plant Genomes [0.0]
サーキュラーRNA(サーキュラーRNA)は、非コードRNA制御ネットワークの重要な構成要素である。
植物ゲノムDNAから直接サーキットRNAを予測するためのトランスフォーマーと専門家の混合に基づく深層学習フレームワークCircFormerMoEを提案する。
論文 参考訳(メタデータ) (2025-07-11T12:43:17Z) - scMamba: A Pre-Trained Model for Single-Nucleus RNA Sequencing Analysis in Neurodegenerative Disorders [43.24785083027205]
scMambaは、snRNA-seq解析の品質と実用性を改善するために設計された事前訓練モデルである。
最近のMambaモデルにインスパイアされた scMamba は、線形アダプタ層、遺伝子埋め込み、双方向のMambaブロックを組み込んだ新しいアーキテクチャを導入している。
scMambaは、セルタイプアノテーション、ダブルト検出、インプット、差分表現された遺伝子の同定など、様々な下流タスクにおいて、ベンチマーク手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-12T11:48:22Z) - Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [55.98854157265578]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。
本稿では、RNAを逆転写し、アミノ酸をヌクレオチド配列に変換することで、マルチオミクスデータを統合する統一パイプラインを提案する。
Life-Codeは3つのオミクスにまたがる様々なタスクの最先端の結果を達成し、マルチオミクス分析と解釈の進歩の可能性を強調している。
論文 参考訳(メタデータ) (2025-02-11T06:53:59Z) - RNA-GPT: Multimodal Generative System for RNA Sequence Understanding [6.611255836269348]
RNAは生命に不可欠な遺伝情報を運ぶ必須分子である。
この重要性にもかかわらず、RNAの研究はしばしば、この話題で利用可能な膨大な文献によって妨げられている。
本稿では,RNA発見の簡易化を目的としたマルチモーダルRNAチャットモデルであるRNA-GPTを紹介する。
論文 参考訳(メタデータ) (2024-10-29T06:19:56Z) - BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - RiNALMo: General-Purpose RNA Language Models Can Generalize Well on Structure Prediction Tasks [1.1764999317813143]
リボ核酸言語モデル(RiNALMo)を導入し,RNAの隠れコードを明らかにする。
RiNALMoは、これまでで最大のRNA言語モデルであり、6億5千万のパラメータが3600万の非コーディングRNA配列で事前訓練されている。
論文 参考訳(メタデータ) (2024-02-29T14:50:58Z) - Description Generation using Variational Auto-Encoders for precursor
microRNA [5.6710852973206105]
本稿では、Vari Auto-Encodersによる生成モデリングを利用して、pre-miRNAの潜伏因子を明らかにする新しいフレームワークを提案する。
フレームワークを分類に適用し、高い再構成と分類性能を得るとともに、正確な記述も開発する。
論文 参考訳(メタデータ) (2023-11-29T15:41:45Z) - scHyena: Foundation Model for Full-Length Single-Cell RNA-Seq Analysis
in Brain [46.39828178736219]
我々はこれらの課題に対処し、脳内のscRNA-seq解析の精度を高めるために設計された基礎モデルであるscHyenaを紹介する。
scHyenaは、線形適応層、遺伝子埋め込みによる位置エンコーディング、および双方向ハイエナ演算子を備えている。
これにより、生データから情報を失うことなく、全長の scRNA-seq データを処理できる。
論文 参考訳(メタデータ) (2023-10-04T10:30:08Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Accurate RNA 3D structure prediction using a language model-based deep learning approach [50.193512039121984]
RhoFold+はRNA言語モデルに基づくディープラーニング手法で、配列から単一鎖RNAの3次元構造を正確に予測する。
RhoFold+はRNA 3D構造予測のための完全に自動化されたエンドツーエンドパイプラインを提供する。
論文 参考訳(メタデータ) (2022-07-04T17:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。