論文の概要: RiNALMo: General-Purpose RNA Language Models Can Generalize Well on
Structure Prediction Tasks
- arxiv url: http://arxiv.org/abs/2403.00043v1
- Date: Thu, 29 Feb 2024 14:50:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 19:12:45.226992
- Title: RiNALMo: General-Purpose RNA Language Models Can Generalize Well on
Structure Prediction Tasks
- Title(参考訳): RiNALMo: 構造予測タスクをうまく一般化できる汎用RNA言語モデル
- Authors: Rafael Josip Peni\'c, Tin Vla\v{s}i\'c, Roland G. Huber, Yue Wan, Mile
\v{S}iki\'c
- Abstract要約: リボ核酸言語モデル(RiNALMo)を導入し,RNAの隠されたコードを明らかにする。
RiNALMoは、これまでで最大のRNAモデルであり、600万ドルの非コーディングRNA配列で事前訓練された650ドルのパラメータを持つ。
- 参考スコア(独自算出の注目度): 1.2466379414976048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ribonucleic acid (RNA) plays a variety of crucial roles in fundamental
biological processes. Recently, RNA has become an interesting drug target,
emphasizing the need to improve our understanding of its structures and
functions. Over the years, sequencing technologies have produced an enormous
amount of unlabeled RNA data, which hides important knowledge and potential.
Motivated by the successes of protein language models, we introduce RiboNucleic
Acid Language Model (RiNALMo) to help unveil the hidden code of RNA. RiNALMo is
the largest RNA language model to date with $650$ million parameters
pre-trained on $36$ million non-coding RNA sequences from several available
databases. RiNALMo is able to extract hidden knowledge and capture the
underlying structure information implicitly embedded within the RNA sequences.
RiNALMo achieves state-of-the-art results on several downstream tasks. Notably,
we show that its generalization capabilities can overcome the inability of
other deep learning methods for secondary structure prediction to generalize on
unseen RNA families. The code has been made publicly available on
https://github.com/lbcb-sci/RiNALMo.
- Abstract(参考訳): リボ核酸(RNA)は、基本的な生物学的過程において様々な重要な役割を果たす。
近年、RNAは興味深い薬物標的となり、その構造や機能の理解を改善する必要性を強調している。
長年にわたり、シークエンシング技術は膨大な量のラベルのないrnaデータを生み出し、重要な知識と可能性を隠す。
タンパク質言語モデルの成功に動機づけられ,リボ核酸言語モデル(rinalmo)を導入し,rnaの隠れコードを明らかにする。
RiNALMoは、これまでで最大のRNA言語モデルで、いくつかの利用可能なデータベースから3600万ドルの非コーディングRNAシークエンスで事前訓練された650ドルのパラメータを持つ。
RiNALMoは隠された知識を抽出し、RNA配列内に暗黙的に埋め込まれた構造情報をキャプチャすることができる。
RiNALMoは、いくつかの下流タスクで最先端の結果を達成する。
特に、その一般化能力は、未確認RNAファミリーを一般化するための二次構造予測のための他の深層学習手法の欠如を克服できることを示す。
コードはhttps://github.com/lbcb-sci/RiNALMoで公開されている。
関連論文リスト
- Character-level Tokenizations as Powerful Inductive Biases for RNA Foundational Models [0.0]
RNAの挙動を理解し予測することは、RNAの構造と相互作用の複雑さのために困難である。
現在のRNAモデルは、タンパク質ドメインで観測された性能とはまだ一致していない。
ChaRNABERTは、確立されたベンチマークでいくつかのタスクで最先端のパフォーマンスに到達することができる。
論文 参考訳(メタデータ) (2024-11-05T21:56:16Z) - RNA-GPT: Multimodal Generative System for RNA Sequence Understanding [6.611255836269348]
RNAは生命に不可欠な遺伝情報を運ぶ必須分子である。
この重要性にもかかわらず、RNAの研究はしばしば、この話題で利用可能な膨大な文献によって妨げられている。
本稿では,RNA発見の簡易化を目的としたマルチモーダルRNAチャットモデルであるRNA-GPTを紹介する。
論文 参考訳(メタデータ) (2024-10-29T06:19:56Z) - Comprehensive benchmarking of large language models for RNA secondary structure prediction [0.0]
RNA-LLMはRNA配列の大規模なデータセットを使用して、自己教師付き方法で、意味的に豊かな数値ベクトルで各RNA塩基をどう表現するかを学ぶ。
その中で、二次構造を予測することは、RNAの機能的機構を明らかにするための基本的な課題である。
本稿では,いくつかの事前学習されたRNA-LLMの総合的な実験解析を行い,それらを統合されたディープラーニングフレームワークにおけるRNA二次構造予測タスクと比較する。
論文 参考訳(メタデータ) (2024-10-21T17:12:06Z) - BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - scHyena: Foundation Model for Full-Length Single-Cell RNA-Seq Analysis
in Brain [46.39828178736219]
我々はこれらの課題に対処し、脳内のscRNA-seq解析の精度を高めるために設計された基礎モデルであるscHyenaを紹介する。
scHyenaは、線形適応層、遺伝子埋め込みによる位置エンコーディング、および双方向ハイエナ演算子を備えている。
これにより、生データから情報を失うことなく、全長の scRNA-seq データを処理できる。
論文 参考訳(メタデータ) (2023-10-04T10:30:08Z) - Knowledge from Large-Scale Protein Contact Prediction Models Can Be
Transferred to the Data-Scarce RNA Contact Prediction Task [40.051834115537474]
タンパク質共進化トランスフォーマーに基づくディープニューラルネットワークはRNA接触予測タスクに転送可能である。
実験により、転写学習によるRNA接触予測が大幅に改善されることが確認された。
以上の結果から, タンパク質の構造パターンはRNAに転移し, 新たな研究の道を開く可能性が示唆された。
論文 参考訳(メタデータ) (2023-02-13T06:00:56Z) - RDesign: Hierarchical Data-efficient Representation Learning for
Tertiary Structure-based RNA Design [65.41144149958208]
本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。
我々は、ベンチマークデータセットを作成し、複雑なRNA第三次構造を表現するための包括的な構造モデリングアプローチを設計した。
RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造体を事前知識として組み込んだ。
論文 参考訳(メタデータ) (2023-01-25T17:19:49Z) - E2Efold-3D: End-to-End Deep Learning Method for accurate de novo RNA 3D
Structure Prediction [46.38735421190187]
E2Efold-3Dというエンド・ツー・エンドの深層学習手法を開発し,テクスタイド・ノボRNA構造予測を精度良く行う。
完全微分可能なエンドツーエンドパイプライン、二次構造による自己蒸留、パラメータ効率のよいバックボーンの定式化など、データ不足を克服するために、いくつかの新しいコンポーネントが提案されている。
論文 参考訳(メタデータ) (2022-07-04T17:15:35Z) - Predictive models of RNA degradation through dual crowdsourcing [2.003083111563343]
クラウドソーシングされた機械学習コンペ("Stanford OpenVaccine")についてKaggleで説明する。
勝者モデルは、以前の最先端のDegScoreモデルよりも50%良いテストセットエラーを示した。
論文 参考訳(メタデータ) (2021-10-14T16:50:37Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。