論文の概要: RiNALMo: General-Purpose RNA Language Models Can Generalize Well on
Structure Prediction Tasks
- arxiv url: http://arxiv.org/abs/2403.00043v1
- Date: Thu, 29 Feb 2024 14:50:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 19:12:45.226992
- Title: RiNALMo: General-Purpose RNA Language Models Can Generalize Well on
Structure Prediction Tasks
- Title(参考訳): RiNALMo: 構造予測タスクをうまく一般化できる汎用RNA言語モデル
- Authors: Rafael Josip Peni\'c, Tin Vla\v{s}i\'c, Roland G. Huber, Yue Wan, Mile
\v{S}iki\'c
- Abstract要約: リボ核酸言語モデル(RiNALMo)を導入し,RNAの隠されたコードを明らかにする。
RiNALMoは、これまでで最大のRNAモデルであり、600万ドルの非コーディングRNA配列で事前訓練された650ドルのパラメータを持つ。
- 参考スコア(独自算出の注目度): 1.2466379414976048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ribonucleic acid (RNA) plays a variety of crucial roles in fundamental
biological processes. Recently, RNA has become an interesting drug target,
emphasizing the need to improve our understanding of its structures and
functions. Over the years, sequencing technologies have produced an enormous
amount of unlabeled RNA data, which hides important knowledge and potential.
Motivated by the successes of protein language models, we introduce RiboNucleic
Acid Language Model (RiNALMo) to help unveil the hidden code of RNA. RiNALMo is
the largest RNA language model to date with $650$ million parameters
pre-trained on $36$ million non-coding RNA sequences from several available
databases. RiNALMo is able to extract hidden knowledge and capture the
underlying structure information implicitly embedded within the RNA sequences.
RiNALMo achieves state-of-the-art results on several downstream tasks. Notably,
we show that its generalization capabilities can overcome the inability of
other deep learning methods for secondary structure prediction to generalize on
unseen RNA families. The code has been made publicly available on
https://github.com/lbcb-sci/RiNALMo.
- Abstract(参考訳): リボ核酸(RNA)は、基本的な生物学的過程において様々な重要な役割を果たす。
近年、RNAは興味深い薬物標的となり、その構造や機能の理解を改善する必要性を強調している。
長年にわたり、シークエンシング技術は膨大な量のラベルのないrnaデータを生み出し、重要な知識と可能性を隠す。
タンパク質言語モデルの成功に動機づけられ,リボ核酸言語モデル(rinalmo)を導入し,rnaの隠れコードを明らかにする。
RiNALMoは、これまでで最大のRNA言語モデルで、いくつかの利用可能なデータベースから3600万ドルの非コーディングRNAシークエンスで事前訓練された650ドルのパラメータを持つ。
RiNALMoは隠された知識を抽出し、RNA配列内に暗黙的に埋め込まれた構造情報をキャプチャすることができる。
RiNALMoは、いくつかの下流タスクで最先端の結果を達成する。
特に、その一般化能力は、未確認RNAファミリーを一般化するための二次構造予測のための他の深層学習手法の欠如を克服できることを示す。
コードはhttps://github.com/lbcb-sci/RiNALMoで公開されている。
関連論文リスト
- Description Generation using Variational Auto-Encoders for precursor
microRNA [5.6710852973206105]
本稿では、Vari Auto-Encodersによる生成モデリングを利用して、pre-miRNAの潜伏因子を明らかにする新しいフレームワークを提案する。
フレームワークを分類に適用し、高い再構成と分類性能を得るとともに、正確な記述も開発する。
論文 参考訳(メタデータ) (2023-11-29T15:41:45Z) - LitSumm: Large language models for literature summarisation of
non-coding RNAs [0.0]
生命科学における文学のカリキュラムは、ますます困難になっている。
関連する文献全体にスケールするリソースを持つナレッジベースは少ない。
非コードRNAのための文献の要約を生成することにより、RNA科学におけるキュレーター時間の欠如を緩和する第一歩を踏み出した。
論文 参考訳(メタデータ) (2023-11-06T12:22:19Z) - scHyena: Foundation Model for Full-Length Single-Cell RNA-Seq Analysis
in Brain [46.39828178736219]
我々はこれらの課題に対処し、脳内のscRNA-seq解析の精度を高めるために設計された基礎モデルであるscHyenaを紹介する。
scHyenaは、線形適応層、遺伝子埋め込みによる位置エンコーディング、および双方向ハイエナ演算子を備えている。
これにより、生データから情報を失うことなく、全長の scRNA-seq データを処理できる。
論文 参考訳(メタデータ) (2023-10-04T10:30:08Z) - Multi-State RNA Design with Geometric Multi-Graph Neural Networks [0.0]
gRNAdeは3D RNAのバックボーン構造を利用し、その設計におけるRNAコンフォメーションの多様性を考慮し、反映している。
大規模3次元RNA設計データセットを用いた単一状態アプローチによるネイティブシークエンスリカバリ改善のためのgRNAdeの有用性を実証する。
論文 参考訳(メタデータ) (2023-05-24T05:46:56Z) - Knowledge from Large-Scale Protein Contact Prediction Models Can Be
Transferred to the Data-Scarce RNA Contact Prediction Task [40.051834115537474]
タンパク質共進化トランスフォーマーに基づくディープニューラルネットワークはRNA接触予測タスクに転送可能である。
実験により、転写学習によるRNA接触予測が大幅に改善されることが確認された。
以上の結果から, タンパク質の構造パターンはRNAに転移し, 新たな研究の道を開く可能性が示唆された。
論文 参考訳(メタデータ) (2023-02-13T06:00:56Z) - RDesign: Hierarchical Data-efficient Representation Learning for
Tertiary Structure-based RNA Design [65.41144149958208]
本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。
我々は、ベンチマークデータセットを作成し、複雑なRNA第三次構造を表現するための包括的な構造モデリングアプローチを設計した。
RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造体を事前知識として組み込んだ。
論文 参考訳(メタデータ) (2023-01-25T17:19:49Z) - E2Efold-3D: End-to-End Deep Learning Method for accurate de novo RNA 3D
Structure Prediction [46.38735421190187]
E2Efold-3Dというエンド・ツー・エンドの深層学習手法を開発し,テクスタイド・ノボRNA構造予測を精度良く行う。
完全微分可能なエンドツーエンドパイプライン、二次構造による自己蒸留、パラメータ効率のよいバックボーンの定式化など、データ不足を克服するために、いくつかの新しいコンポーネントが提案されている。
論文 参考訳(メタデータ) (2022-07-04T17:15:35Z) - Improving RNA Secondary Structure Design using Deep Reinforcement
Learning [69.63971634605797]
本稿では,RNA配列設計に強化学習を適用した新しいベンチマークを提案する。このベンチマークでは,目的関数を配列の二次構造における自由エネルギーとして定義する。
本稿では,これらのアルゴリズムに対して行うアブレーション解析の結果と,バッチ間でのアルゴリズムの性能を示すグラフを示す。
論文 参考訳(メタデータ) (2021-11-05T02:54:06Z) - Predictive models of RNA degradation through dual crowdsourcing [2.003083111563343]
クラウドソーシングされた機械学習コンペ("Stanford OpenVaccine")についてKaggleで説明する。
勝者モデルは、以前の最先端のDegScoreモデルよりも50%良いテストセットエラーを示した。
論文 参考訳(メタデータ) (2021-10-14T16:50:37Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。