論文の概要: CircFormerMoE: An End-to-End Deep Learning Framework for Circular RNA Splice Site Detection and Pairing in Plant Genomes
- arxiv url: http://arxiv.org/abs/2507.08542v1
- Date: Fri, 11 Jul 2025 12:43:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.356834
- Title: CircFormerMoE: An End-to-End Deep Learning Framework for Circular RNA Splice Site Detection and Pairing in Plant Genomes
- Title(参考訳): CircFormerMoE:植物ゲノムのRNAスプライス検出とペアリングのためのエンド・ツー・エンドディープラーニングフレームワーク
- Authors: Tianyou Jiang,
- Abstract要約: サーキュラーRNA(サーキュラーRNA)は、非コードRNA制御ネットワークの重要な構成要素である。
植物ゲノムDNAから直接サーキットRNAを予測するためのトランスフォーマーと専門家の混合に基づく深層学習フレームワークCircFormerMoEを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Circular RNAs (circRNAs) are important components of the non-coding RNA regulatory network. Previous circRNA identification primarily relies on high-throughput RNA sequencing (RNA-seq) data combined with alignment-based algorithms that detect back-splicing signals. However, these methods face several limitations: they can't predict circRNAs directly from genomic DNA sequences and relies heavily on RNA experimental data; they involve high computational costs due to complex alignment and filtering steps; and they are inefficient for large-scale or genome-wide circRNA prediction. The challenge is even greater in plants, where plant circRNA splice sites often lack the canonical GT-AG motif seen in human mRNA splicing, and no efficient deep learning model with strong generalization capability currently exists. Furthermore, the number of currently identified plant circRNAs is likely far lower than their true abundance. In this paper, we propose a deep learning framework named CircFormerMoE based on transformers and mixture-of experts for predicting circRNAs directly from plant genomic DNA. Our framework consists of two subtasks known as splicing site detection (SSD) and splicing site pairing (SSP). The model's effectiveness has been validated on gene data of 10 plant species. Trained on known circRNA instances, it is also capable of discovering previously unannotated circRNAs. In addition, we performed interpretability analyses on the trained model to investigate the sequence patterns contributing to its predictions. Our framework provides a fast and accurate computational method and tool for large-scale circRNA discovery in plants, laying a foundation for future research in plant functional genomics and non-coding RNA annotation.
- Abstract(参考訳): 循環RNAは非コードRNA制御ネットワークの重要な構成要素である。
これまでの circRNA の同定は、主に高スループットRNAシークエンシング(RNA-seq)データと、バックスプライシング信号を検出するアライメントに基づくアルゴリズムに頼っていた。
しかし、これらの手法にはいくつかの制限がある:彼らはゲノムDNA配列から直接のサークRNAを予測できず、RNA実験データに大きく依存し、複雑なアライメントとフィルタリングステップによる高い計算コストを伴い、大規模またはゲノムワイドのサークRNA予測には非効率である。
ヒトmRNAスプライシングで見られる標準GT-AGモチーフが欠如している植物では、この課題はさらに大きくなり、強力な一般化能力を持つ効率的なディープラーニングモデルが存在しない。
さらに、現在同定されている植物循環RNAの数は、その真の存在量よりもはるかに少ない可能性が高い。
本稿では,植物ゲノムDNAから直接サーキットRNAを予測するためのトランスフォーマーと専門家の混合に基づく深層学習フレームワークCircFormerMoEを提案する。
本フレームワークは,スプライシングサイト検出 (SSD) とスプライシングサイトペアリング (SSP) という2つのサブタスクから構成される。
このモデルの有効性は、植物10種の遺伝子データに基づいて検証されている。
既知のcircRNAインスタンスに基づいて訓練され、以前は注釈が付けられていなかったcircRNAも発見できる。
さらに,学習モデルの解釈可能性解析を行い,その予測に寄与するシーケンスパターンについて検討した。
われわれのフレームワークは、植物における大規模循環RNA発見のための高速で正確な計算方法とツールを提供し、植物機能ゲノム学および非コードRNAアノテーションの今後の研究の基礎を築き上げている。
関連論文リスト
- RNAMunin: A Deep Machine Learning Model for Non-coding RNA Discovery [0.0]
非コードRNA(ncRNA)は細菌や古細菌の生理、ストレス応答、代謝の調節に重要である。
本稿では、ゲノム配列だけでncRNAを見つけることができる機械学習(ML)モデルRNAMuninを提案する。
RNAMuninは、サンフランシスコエスチュアリ16のサンプルから約60Gbpの長読型メタジェノムから抽出されたRfam配列に基づいて訓練されている。
論文 参考訳(メタデータ) (2025-07-16T06:33:50Z) - Regulatory DNA sequence Design with Reinforcement Learning [56.20290878358356]
本稿では,強化学習を利用して事前学習した自己回帰モデルを微調整する生成手法を提案する。
2つの酵母培地条件下でのプロモーター設計タスクの評価と,3種類のヒト細胞に対するエンハンサー設計タスクの評価を行った。
論文 参考訳(メタデータ) (2025-03-11T02:33:33Z) - LoRA-BERT: a Natural Language Processing Model for Robust and Accurate Prediction of long non-coding RNAs [11.346750562942345]
長い非コードRNA(lncRNA)は多くの生物学的プロセスにおいて重要な調節因子である。
深層学習に基づくアプローチは、lncRNAを分類するために導入された。
LoRA-BERTは配列分類におけるヌクレオチドレベルの情報の重要性を捉えるように設計されている。
論文 参考訳(メタデータ) (2024-11-11T22:17:01Z) - RNA-GPT: Multimodal Generative System for RNA Sequence Understanding [6.611255836269348]
RNAは生命に不可欠な遺伝情報を運ぶ必須分子である。
この重要性にもかかわらず、RNAの研究はしばしば、この話題で利用可能な膨大な文献によって妨げられている。
本稿では,RNA発見の簡易化を目的としたマルチモーダルRNAチャットモデルであるRNA-GPTを紹介する。
論文 参考訳(メタデータ) (2024-10-29T06:19:56Z) - BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - Description Generation using Variational Auto-Encoders for precursor
microRNA [5.6710852973206105]
本稿では、Vari Auto-Encodersによる生成モデリングを利用して、pre-miRNAの潜伏因子を明らかにする新しいフレームワークを提案する。
フレームワークを分類に適用し、高い再構成と分類性能を得るとともに、正確な記述も開発する。
論文 参考訳(メタデータ) (2023-11-29T15:41:45Z) - scHyena: Foundation Model for Full-Length Single-Cell RNA-Seq Analysis
in Brain [46.39828178736219]
我々はこれらの課題に対処し、脳内のscRNA-seq解析の精度を高めるために設計された基礎モデルであるscHyenaを紹介する。
scHyenaは、線形適応層、遺伝子埋め込みによる位置エンコーディング、および双方向ハイエナ演算子を備えている。
これにより、生データから情報を失うことなく、全長の scRNA-seq データを処理できる。
論文 参考訳(メタデータ) (2023-10-04T10:30:08Z) - Knowledge from Large-Scale Protein Contact Prediction Models Can Be
Transferred to the Data-Scarce RNA Contact Prediction Task [40.051834115537474]
タンパク質共進化トランスフォーマーに基づくディープニューラルネットワークはRNA接触予測タスクに転送可能である。
実験により、転写学習によるRNA接触予測が大幅に改善されることが確認された。
以上の結果から, タンパク質の構造パターンはRNAに転移し, 新たな研究の道を開く可能性が示唆された。
論文 参考訳(メタデータ) (2023-02-13T06:00:56Z) - RDesign: Hierarchical Data-efficient Representation Learning for
Tertiary Structure-based RNA Design [65.41144149958208]
本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。
我々は、ベンチマークデータセットを作成し、複雑なRNA第三次構造を表現するための包括的な構造モデリングアプローチを設計した。
RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造体を事前知識として組み込んだ。
論文 参考訳(メタデータ) (2023-01-25T17:19:49Z) - Accurate RNA 3D structure prediction using a language model-based deep learning approach [50.193512039121984]
RhoFold+はRNA言語モデルに基づくディープラーニング手法で、配列から単一鎖RNAの3次元構造を正確に予測する。
RhoFold+はRNA 3D構造予測のための完全に自動化されたエンドツーエンドパイプラインを提供する。
論文 参考訳(メタデータ) (2022-07-04T17:15:35Z) - Visualizing hierarchies in scRNA-seq data using a density tree-biased
autoencoder [50.591267188664666]
本研究では,高次元scRNA-seqデータから意味のある木構造を同定する手法を提案する。
次に、低次元空間におけるデータのツリー構造を強調する木バイアスオートエンコーダDTAEを紹介する。
論文 参考訳(メタデータ) (2021-02-11T08:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。