論文の概要: Hierarchical Data-efficient Representation Learning for Tertiary
Structure-based RNA Design
- arxiv url: http://arxiv.org/abs/2301.10774v2
- Date: Wed, 17 May 2023 13:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 20:29:11.117201
- Title: Hierarchical Data-efficient Representation Learning for Tertiary
Structure-based RNA Design
- Title(参考訳): 3次構造に基づくRNA設計のための階層的データ効率表現学習
- Authors: Cheng Tan, Yijie Zhang, Zhangyang Gao, Hanqun Cao, Stan Z. Li
- Abstract要約: データ駆動型RNA設計パイプラインを体系的に構築することを目指している。
構造表現を学習する階層的データ効率表現学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 33.52407507753166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While artificial intelligence has made remarkable strides in revealing the
relationship between biological macromolecules' primary sequence and tertiary
structure, designing RNA sequences based on specified tertiary structures
remains challenging. Though existing approaches in protein design have
thoroughly explored structure-to-sequence dependencies in proteins, RNA design
still confronts difficulties due to structural complexity and data scarcity.
Adding to the problem, direct transplantation of protein design methodologies
into RNA design fails to achieve satisfactory outcomes although sharing similar
structural components. In this study, we aim to systematically construct a
data-driven RNA design pipeline. We crafted a large, well-curated benchmark
dataset and designed a comprehensive structural modeling approach to represent
the complex RNA tertiary structure. More importantly, we proposed a
hierarchical data-efficient representation learning framework that learns
structural representations through contrastive learning at both cluster-level
and sample-level to fully leverage the limited data. By constraining data
representations within a limited hyperspherical space, the intrinsic
relationships between data points could be explicitly imposed. Moreover, we
incorporated extracted secondary structures with base pairs as prior knowledge
to facilitate the RNA design process. Extensive experiments demonstrate the
effectiveness of our proposed method, providing a reliable baseline for future
RNA design tasks. The source code and benchmark dataset will be released
publicly.
- Abstract(参考訳): 人工知能は、生体高分子の一次配列と第三次構造との関係を明らかにすることに顕著な進歩を遂げているが、特定の第三次構造に基づくrna配列の設計は依然として困難である。
タンパク質設計における既存のアプローチはタンパク質の構造から配列への依存を徹底的に研究してきたが、RNAの設計は構造的な複雑さとデータ不足のために依然として困難に直面している。
この問題に加えて、タンパク質設計手法を直接RNA設計に移植しても、同様の構造成分を共有しながら十分な結果が得られない。
本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。
我々は,大規模で精巧なベンチマークデータセットを作成し,複雑なrna3次構造を表現するための包括的構造モデリング手法を設計した。
さらに,クラスタレベルとサンプルレベルでの対比学習を通じて構造表現を学習し,限られたデータを完全に活用する階層型データ効率表現学習フレームワークを提案する。
限られた超球面空間内でデータ表現を制約することで、データポイント間の本質的な関係を明示的に課すことができる。
さらに,RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造を事前知識として組み込んだ。
大規模な実験により提案手法の有効性を実証し,今後のRNA設計タスクの信頼性の高いベースラインを提供する。
ソースコードとベンチマークデータセットは公開される予定だ。
関連論文リスト
- 3D-based RNA function prediction tools in rnaglib [2.048226951354646]
RNA 3D構造のデータセットを構築し、適切なモデリング選択を行うには、まだ時間がかかり、標準化が欠如している。
本稿では,RNA3次元構造のデータセット上で,教師付きおよび教師なし機械学習に基づく関数予測モデルをトレーニングするために,rnaglibを用いることについて述べる。
論文 参考訳(メタデータ) (2024-02-14T17:22:03Z) - MMDesign: Multi-Modality Transfer Learning for Generative Protein Design [66.49989188722553]
タンパク質の設計は、対応するタンパク質のバックボーンに基づいてタンパク質配列を生成する。
深層生成モデルは、データから直接タンパク質設計を学ぶことを約束している。
パブリックな構造系列ペアリングの欠如は、一般化能力を制限している。
マルチモーダルトランスファー学習を利用するMMDesignと呼ばれる新しいタンパク質設計パラダイムを提案する。
論文 参考訳(メタデータ) (2023-12-11T10:59:23Z) - gRNAde: Geometric Deep Learning for 3D RNA inverse design [15.879997841678215]
gRNAdeは3次元RNAバックボーンで動作する幾何学的RNA設計パイプラインである。
構造と力学を明示的に考慮したシーケンスを生成する。
論文 参考訳(メタデータ) (2023-05-24T05:46:56Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - E2Efold-3D: End-to-End Deep Learning Method for accurate de novo RNA 3D
Structure Prediction [46.38735421190187]
E2Efold-3Dというエンド・ツー・エンドの深層学習手法を開発し,テクスタイド・ノボRNA構造予測を精度良く行う。
完全微分可能なエンドツーエンドパイプライン、二次構造による自己蒸留、パラメータ効率のよいバックボーンの定式化など、データ不足を克服するために、いくつかの新しいコンポーネントが提案されている。
論文 参考訳(メタデータ) (2022-07-04T17:15:35Z) - Neural representation and generation for RNA secondary structures [14.583976833366384]
我々の研究は、遺伝子マクロ分子の一種であるRNAの生成とターゲット設計に関するものである。
大規模で複雑な生物学的構造の設計は、専用のグラフベースの深層生成モデリング技術を刺激する。
本稿では,異なるRNA構造を結合して生成するフレキシブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-01T15:49:25Z) - VeRNAl: Mining RNA Structures for Fuzzy Base Pairing Network Motifs [13.990800077082843]
RNA 3Dモチーフは塩基対相互作用のネットワークとしてモデル化された繰り返しサブ構造である。
本稿では, 柔軟なRNAモチーフを復元するためのノード類似関数, クラスタリング手法, モチーフ構築アルゴリズムを提案する。
VeRNAlはユーザが容易にカスタマイズでき、モチーフの柔軟性、豊富さ、サイズが求められる。
論文 参考訳(メタデータ) (2020-09-01T19:03:06Z) - RNA Secondary Structure Prediction By Learning Unrolled Algorithms [70.09461537906319]
本稿では,RNA二次構造予測のためのエンド・ツー・エンドのディープラーニングモデルであるE2Efoldを提案する。
E2Efoldの鍵となる考え方は、RNA塩基対行列を直接予測し、制約のないプログラミングを、制約を強制するための深いアーキテクチャのテンプレートとして使うことである。
ベンチマークデータセットに関する包括的な実験により、E2Efoldの優れた性能を実証する。
論文 参考訳(メタデータ) (2020-02-13T23:21:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。