論文の概要: RDesign: Hierarchical Data-efficient Representation Learning for
Tertiary Structure-based RNA Design
- arxiv url: http://arxiv.org/abs/2301.10774v3
- Date: Thu, 7 Mar 2024 02:07:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 18:38:14.059101
- Title: RDesign: Hierarchical Data-efficient Representation Learning for
Tertiary Structure-based RNA Design
- Title(参考訳): RDesign:第三次構造に基づくRNA設計のための階層的データ効率表現学習
- Authors: Cheng Tan, Yijie Zhang, Zhangyang Gao, Bozhen Hu, Siyuan Li, Zicheng
Liu, Stan Z. Li
- Abstract要約: 本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。
我々は、ベンチマークデータセットを作成し、複雑なRNA第三次構造を表現するための包括的な構造モデリングアプローチを設計した。
RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造体を事前知識として組み込んだ。
- 参考スコア(独自算出の注目度): 65.41144149958208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While artificial intelligence has made remarkable strides in revealing the
relationship between biological macromolecules' primary sequence and tertiary
structure, designing RNA sequences based on specified tertiary structures
remains challenging. Though existing approaches in protein design have
thoroughly explored structure-to-sequence dependencies in proteins, RNA design
still confronts difficulties due to structural complexity and data scarcity.
Moreover, direct transplantation of protein design methodologies into RNA
design fails to achieve satisfactory outcomes although sharing similar
structural components. In this study, we aim to systematically construct a
data-driven RNA design pipeline. We crafted a large, well-curated benchmark
dataset and designed a comprehensive structural modeling approach to represent
the complex RNA tertiary structure. More importantly, we proposed a
hierarchical data-efficient representation learning framework that learns
structural representations through contrastive learning at both cluster-level
and sample-level to fully leverage the limited data. By constraining data
representations within a limited hyperspherical space, the intrinsic
relationships between data points could be explicitly imposed. Moreover, we
incorporated extracted secondary structures with base pairs as prior knowledge
to facilitate the RNA design process. Extensive experiments demonstrate the
effectiveness of our proposed method, providing a reliable baseline for future
RNA design tasks. The source code and benchmark dataset are available at
https://github.com/A4Bio/RDesign.
- Abstract(参考訳): 人工知能は、生体高分子の一次配列と第三次構造との関係を明らかにすることに顕著な進歩を遂げているが、特定の第三次構造に基づくrna配列の設計は依然として困難である。
タンパク質設計における既存のアプローチはタンパク質の構造から配列への依存を徹底的に研究してきたが、RNAの設計は構造的な複雑さとデータ不足のために依然として困難に直面している。
さらに、タンパク質設計手法を直接RNA設計に移植しても、同様の構造成分を共有しながら良好な結果が得られない。
本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。
我々は,大規模で精巧なベンチマークデータセットを作成し,複雑なrna3次構造を表現するための包括的構造モデリング手法を設計した。
さらに,クラスタレベルとサンプルレベルでの対比学習を通じて構造表現を学習し,限られたデータを完全に活用する階層型データ効率表現学習フレームワークを提案する。
限られた超球面空間内でデータ表現を制約することで、データポイント間の本質的な関係を明示的に課すことができる。
さらに,RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造を事前知識として組み込んだ。
大規模な実験により提案手法の有効性を実証し,今後のRNA設計タスクの信頼性の高いベースラインを提供する。
ソースコードとベンチマークデータセットはhttps://github.com/a4bio/rdesignで入手できる。
関連論文リスト
- Comprehensive benchmarking of large language models for RNA secondary structure prediction [0.0]
RNA-LLMはRNA配列の大規模なデータセットを使用して、自己教師付き方法で、意味的に豊かな数値ベクトルで各RNA塩基をどう表現するかを学ぶ。
その中で、二次構造を予測することは、RNAの機能的機構を明らかにするための基本的な課題である。
本稿では,いくつかの事前学習されたRNA-LLMの総合的な実験解析を行い,それらを統合されたディープラーニングフレームワークにおけるRNA二次構造予測タスクと比較する。
論文 参考訳(メタデータ) (2024-10-21T17:12:06Z) - BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - RNAFlow: RNA Structure & Sequence Design via Inverse Folding-Based Flow Matching [7.600990806121113]
RNAFlowはタンパク質条件のRNA配列構造設計のためのフローマッチングモデルである。
そのデノナイジングネットワークはRNA逆フォールディングモデルと事前訓練されたRosettaFold2NAネットワークを統合し、RNA配列と構造を生成する。
論文 参考訳(メタデータ) (2024-05-29T05:10:25Z) - 3D-based RNA function prediction tools in rnaglib [2.048226951354646]
RNA 3D構造のデータセットを構築し、適切なモデリング選択を行うには、まだ時間がかかり、標準化が欠如している。
本稿では,RNA3次元構造のデータセット上で,教師付きおよび教師なし機械学習に基づく関数予測モデルをトレーニングするために,rnaglibを用いることについて述べる。
論文 参考訳(メタデータ) (2024-02-14T17:22:03Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - E2Efold-3D: End-to-End Deep Learning Method for accurate de novo RNA 3D
Structure Prediction [46.38735421190187]
E2Efold-3Dというエンド・ツー・エンドの深層学習手法を開発し,テクスタイド・ノボRNA構造予測を精度良く行う。
完全微分可能なエンドツーエンドパイプライン、二次構造による自己蒸留、パラメータ効率のよいバックボーンの定式化など、データ不足を克服するために、いくつかの新しいコンポーネントが提案されている。
論文 参考訳(メタデータ) (2022-07-04T17:15:35Z) - Neural representation and generation for RNA secondary structures [14.583976833366384]
我々の研究は、遺伝子マクロ分子の一種であるRNAの生成とターゲット設計に関するものである。
大規模で複雑な生物学的構造の設計は、専用のグラフベースの深層生成モデリング技術を刺激する。
本稿では,異なるRNA構造を結合して生成するフレキシブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-01T15:49:25Z) - RNA Secondary Structure Prediction By Learning Unrolled Algorithms [70.09461537906319]
本稿では,RNA二次構造予測のためのエンド・ツー・エンドのディープラーニングモデルであるE2Efoldを提案する。
E2Efoldの鍵となる考え方は、RNA塩基対行列を直接予測し、制約のないプログラミングを、制約を強制するための深いアーキテクチャのテンプレートとして使うことである。
ベンチマークデータセットに関する包括的な実験により、E2Efoldの優れた性能を実証する。
論文 参考訳(メタデータ) (2020-02-13T23:21:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。