論文の概要: RiNALMo: General-Purpose RNA Language Models Can Generalize Well on Structure Prediction Tasks
- arxiv url: http://arxiv.org/abs/2403.00043v2
- Date: Tue, 12 Nov 2024 15:54:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:16:18.344519
- Title: RiNALMo: General-Purpose RNA Language Models Can Generalize Well on Structure Prediction Tasks
- Title(参考訳): RiNALMo: 構造予測タスクをうまく一般化できる汎用RNA言語モデル
- Authors: Rafael Josip Penić, Tin Vlašić, Roland G. Huber, Yue Wan, Mile Šikić,
- Abstract要約: リボ核酸言語モデル(RiNALMo)を導入し,RNAの隠れコードを明らかにする。
RiNALMoは、これまでで最大のRNA言語モデルであり、6億5千万のパラメータが3600万の非コーディングRNA配列で事前訓練されている。
- 参考スコア(独自算出の注目度): 1.1764999317813143
- License:
- Abstract: While RNA has recently been recognized as an interesting small-molecule drug target, many challenges remain to be addressed before we take full advantage of it. This emphasizes the necessity to improve our understanding of its structures and functions. Over the years, sequencing technologies have produced an enormous amount of unlabeled RNA data, which hides a huge potential. Motivated by the successes of protein language models, we introduce RiboNucleic Acid Language Model (RiNALMo) to unveil the hidden code of RNA. RiNALMo is the largest RNA language model to date, with 650M parameters pre-trained on 36M non-coding RNA sequences from several databases. It can extract hidden knowledge and capture the underlying structure information implicitly embedded within the RNA sequences. RiNALMo achieves state-of-the-art results on several downstream tasks. Notably, we show that its generalization capabilities overcome the inability of other deep learning methods for secondary structure prediction to generalize on unseen RNA families.
- Abstract(参考訳): RNAは、最近、興味深い小分子の薬物標的として認識されているが、それを最大限に活用する前には、多くの課題が解決される。
これは、構造や機能に対する理解を改善する必要性を強調します。
長年にわたって、シークエンシング技術は膨大な量のラベルのないRNAデータを生成してきた。
タンパク質言語モデルの成功に触発され、RNAの隠されたコードを明らかにするために、リボヌクレイン酸言語モデル(RiNALMo)を紹介した。
RiNALMoはこれまでに6億5千万のパラメータが複数のデータベースから3600万の非コーディングRNA配列で事前訓練された、最大のRNA言語モデルである。
隠された知識を抽出し、RNA配列内に暗黙的に埋め込まれた構造情報をキャプチャする。
RiNALMoは、いくつかの下流タスクで最先端の結果を達成する。
特に、その一般化能力は、未確認RNAファミリーを一般化するための二次構造予測のための他の深層学習手法の欠如を克服することを示した。
関連論文リスト
- Comprehensive benchmarking of large language models for RNA secondary structure prediction [0.0]
RNA-LLMはRNA配列の大規模なデータセットを使用して、自己教師付き方法で、意味的に豊かな数値ベクトルで各RNA塩基をどう表現するかを学ぶ。
その中で、二次構造を予測することは、RNAの機能的機構を明らかにするための基本的な課題である。
本稿では,いくつかの事前学習されたRNA-LLMの総合的な実験解析を行い,それらを統合されたディープラーニングフレームワークにおけるRNA二次構造予測タスクと比較する。
論文 参考訳(メタデータ) (2024-10-21T17:12:06Z) - RNA-FrameFlow: Flow Matching for de novo 3D RNA Backbone Design [35.66059762160962]
本稿では3次元RNAバックボーン設計のための最初の生成モデルであるRNA-FrameFlowを紹介する。
我々は、剛体フレームと関連する損失関数の集合としてRNA構造を定式化する。
3次元RNAデータセットの多様性の欠如に対処するため、構造的クラスタリングと収穫増強によるトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-06-19T21:06:44Z) - BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - Description Generation using Variational Auto-Encoders for precursor
microRNA [5.6710852973206105]
本稿では、Vari Auto-Encodersによる生成モデリングを利用して、pre-miRNAの潜伏因子を明らかにする新しいフレームワークを提案する。
フレームワークを分類に適用し、高い再構成と分類性能を得るとともに、正確な記述も開発する。
論文 参考訳(メタデータ) (2023-11-29T15:41:45Z) - scHyena: Foundation Model for Full-Length Single-Cell RNA-Seq Analysis
in Brain [46.39828178736219]
我々はこれらの課題に対処し、脳内のscRNA-seq解析の精度を高めるために設計された基礎モデルであるscHyenaを紹介する。
scHyenaは、線形適応層、遺伝子埋め込みによる位置エンコーディング、および双方向ハイエナ演算子を備えている。
これにより、生データから情報を失うことなく、全長の scRNA-seq データを処理できる。
論文 参考訳(メタデータ) (2023-10-04T10:30:08Z) - Knowledge from Large-Scale Protein Contact Prediction Models Can Be
Transferred to the Data-Scarce RNA Contact Prediction Task [40.051834115537474]
タンパク質共進化トランスフォーマーに基づくディープニューラルネットワークはRNA接触予測タスクに転送可能である。
実験により、転写学習によるRNA接触予測が大幅に改善されることが確認された。
以上の結果から, タンパク質の構造パターンはRNAに転移し, 新たな研究の道を開く可能性が示唆された。
論文 参考訳(メタデータ) (2023-02-13T06:00:56Z) - RDesign: Hierarchical Data-efficient Representation Learning for
Tertiary Structure-based RNA Design [65.41144149958208]
本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。
我々は、ベンチマークデータセットを作成し、複雑なRNA第三次構造を表現するための包括的な構造モデリングアプローチを設計した。
RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造体を事前知識として組み込んだ。
論文 参考訳(メタデータ) (2023-01-25T17:19:49Z) - E2Efold-3D: End-to-End Deep Learning Method for accurate de novo RNA 3D
Structure Prediction [46.38735421190187]
E2Efold-3Dというエンド・ツー・エンドの深層学習手法を開発し,テクスタイド・ノボRNA構造予測を精度良く行う。
完全微分可能なエンドツーエンドパイプライン、二次構造による自己蒸留、パラメータ効率のよいバックボーンの定式化など、データ不足を克服するために、いくつかの新しいコンポーネントが提案されている。
論文 参考訳(メタデータ) (2022-07-04T17:15:35Z) - Predictive models of RNA degradation through dual crowdsourcing [2.003083111563343]
クラウドソーシングされた機械学習コンペ("Stanford OpenVaccine")についてKaggleで説明する。
勝者モデルは、以前の最先端のDegScoreモデルよりも50%良いテストセットエラーを示した。
論文 参考訳(メタデータ) (2021-10-14T16:50:37Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。