論文の概要: Bridging Sequence-Structure Alignment in RNA Foundation Models
- arxiv url: http://arxiv.org/abs/2407.11242v3
- Date: Fri, 13 Dec 2024 14:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:00:21.273688
- Title: Bridging Sequence-Structure Alignment in RNA Foundation Models
- Title(参考訳): RNA基盤モデルにおけるブリッジ配列構造アライメント
- Authors: Heng Yang, Renzhi Chen, Ke Li,
- Abstract要約: 基礎モデル(FM)におけるRNA配列と構造との整合性についてはまだ研究されていない。
既存のFMは配列構造アライメントを確立するのに苦労しており、ゲノム情報の自由な流れを妨げる。
OmniGenomeはRNA配列を構造コンテクスト化されたモデリングに基づく二次構造に整合させる訓練されたRNA FMである。
- 参考スコア(独自算出の注目度): 7.068604225076706
- License:
- Abstract: The alignment between RNA sequences and structures in foundation models (FMs) has yet to be thoroughly investigated. Existing FMs have struggled to establish sequence-structure alignment, hindering the free flow of genomic information between RNA sequences and structures. In this study, we introduce OmniGenome, an RNA FM trained to align RNA sequences with respect to secondary structures based on structure-contextualised modelling. The alignment enables free and bidirectional mappings between sequences and structures by utilising the flexible RNA modelling paradigm that supports versatile input and output modalities, i.e., sequence and/or structure as input/output. We implement RNA design and zero-shot secondary structure prediction as case studies to evaluate the Seq2Str and Str2Seq mapping capacity of OmniGenome. Results on the EternaV2 benchmark show that OmniGenome solved 74% of puzzles, whereas existing FMs only solved up to 3% of the puzzles due to the oversight of sequence-structure alignment. We leverage four comprehensive in-silico genome modelling benchmarks to evaluate performance across a diverse set of genome downstream tasks, where the results show that OmniGenome achieves state-of-the-art performance on RNA and DNA benchmarks, even without any training on DNA genomes.
- Abstract(参考訳): 基礎モデル(FM)におけるRNA配列と構造との整合性については、まだ十分に研究されていない。
既存のFMは配列構造アライメントを確立するのに苦労しており、RNA配列と構造の間のゲノム情報の自由な流れを妨げる。
本研究では,RNA配列を構造コンテクスト化モデルに基づく二次構造に整列させる訓練を施したRNA FMであるOmniGenomeを紹介する。
このアライメントは、汎用的な入力および出力モダリティをサポートするフレキシブルなRNAモデリングパラダイム、すなわち、シーケンスおよび/または構造を入出力として利用することにより、配列と構造間の自由かつ双方向なマッピングを可能にする。
我々はRNA設計とゼロショット二次構造予測をケーススタディとして実装し,OmniGenomeのSeq2StrおよびStr2Seqマッピング能力を評価する。
EternaV2ベンチマークの結果、OmniGenomeはパズルの74%を解いたのに対し、既存のFMは配列構造アライメントの監督のためにパズルの最大3%しか解けなかった。
その結果,OmniGenomeはDNAゲノムの訓練を受けなくても,RNAおよびDNAベンチマーク上で最先端のパフォーマンスを達成できることがわかった。
関連論文リスト
- Comprehensive benchmarking of large language models for RNA secondary structure prediction [0.0]
RNA-LLMはRNA配列の大規模なデータセットを使用して、自己教師付き方法で、意味的に豊かな数値ベクトルで各RNA塩基をどう表現するかを学ぶ。
その中で、二次構造を予測することは、RNAの機能的機構を明らかにするための基本的な課題である。
本稿では,いくつかの事前学習されたRNA-LLMの総合的な実験解析を行い,それらを統合されたディープラーニングフレームワークにおけるRNA二次構造予測タスクと比較する。
論文 参考訳(メタデータ) (2024-10-21T17:12:06Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - RNACG: A Universal RNA Sequence Conditional Generation model based on Flow-Matching [0.0]
本研究では,フローマッチング,すなわちRNACGに基づく普遍的なRNA配列生成モデルを開発する。
RNACGは様々な条件入力に対応でき、可搬性があり、ユーザーは条件入力のために符号化ネットワークをカスタマイズできる。
RNACGは、シーケンス生成およびプロパティ予測タスクに広範な適用性を示す。
論文 参考訳(メタデータ) (2024-07-29T09:46:46Z) - BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation [55.93511121486321]
タンパク質構造生成のための新しいシーケンス条件付きフローマッチングモデルFoldFlow-2を紹介する。
我々は、以前の作業のPDBデータセットよりも桁違いに大きい新しいデータセットでFoldFlow-2を大規模にトレーニングします。
我々はFoldFlow-2が従来のタンパク質構造に基づく生成モデルよりも優れていることを実証的に観察した。
論文 参考訳(メタデータ) (2024-05-30T17:53:50Z) - RNAFlow: RNA Structure & Sequence Design via Inverse Folding-Based Flow Matching [7.600990806121113]
RNAFlowはタンパク質条件のRNA配列構造設計のためのフローマッチングモデルである。
そのデノナイジングネットワークはRNA逆フォールディングモデルと事前訓練されたRosettaFold2NAネットワークを統合し、RNA配列と構造を生成する。
論文 参考訳(メタデータ) (2024-05-29T05:10:25Z) - RDesign: Hierarchical Data-efficient Representation Learning for
Tertiary Structure-based RNA Design [65.41144149958208]
本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。
我々は、ベンチマークデータセットを作成し、複雑なRNA第三次構造を表現するための包括的な構造モデリングアプローチを設計した。
RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造体を事前知識として組み込んだ。
論文 参考訳(メタデータ) (2023-01-25T17:19:49Z) - Accurate RNA 3D structure prediction using a language model-based deep learning approach [50.193512039121984]
RhoFold+はRNA言語モデルに基づくディープラーニング手法で、配列から単一鎖RNAの3次元構造を正確に予測する。
RhoFold+はRNA 3D構造予測のための完全に自動化されたエンドツーエンドパイプラインを提供する。
論文 参考訳(メタデータ) (2022-07-04T17:15:35Z) - RNA Secondary Structure Prediction By Learning Unrolled Algorithms [70.09461537906319]
本稿では,RNA二次構造予測のためのエンド・ツー・エンドのディープラーニングモデルであるE2Efoldを提案する。
E2Efoldの鍵となる考え方は、RNA塩基対行列を直接予測し、制約のないプログラミングを、制約を強制するための深いアーキテクチャのテンプレートとして使うことである。
ベンチマークデータセットに関する包括的な実験により、E2Efoldの優れた性能を実証する。
論文 参考訳(メタデータ) (2020-02-13T23:21:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。