論文の概要: Latent Diffusion Models for Controllable RNA Sequence Generation
- arxiv url: http://arxiv.org/abs/2409.09828v2
- Date: Wed, 2 Oct 2024 16:42:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 20:46:36.405500
- Title: Latent Diffusion Models for Controllable RNA Sequence Generation
- Title(参考訳): 制御可能なRNA配列生成のための潜時拡散モデル
- Authors: Kaixuan Huang, Yukang Yang, Kaidi Fu, Yanyi Chu, Le Cong, Mengdi Wang,
- Abstract要約: RNAはDNAとタンパク質の間の重要な中間体であり、高い配列の多様性と複雑な3次元構造を示す。
可変長の離散RNA配列の生成と最適化のための潜時拡散モデルを開発した。
実験の結果、RNA拡散は様々な生物学的指標の自然な分布と一致した非コードRNAを生成することが確認された。
- 参考スコア(独自算出の注目度): 33.38594748558547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents RNAdiffusion, a latent diffusion model for generating and optimizing discrete RNA sequences of variable lengths. RNA is a key intermediary between DNA and protein, exhibiting high sequence diversity and complex three-dimensional structures to support a wide range of functions. We utilize pretrained BERT-type models to encode raw RNA sequences into token-level, biologically meaningful representations. A Query Transformer is employed to compress such representations into a set of fixed-length latent vectors, with an autoregressive decoder trained to reconstruct RNA sequences from these latent variables. We then develop a continuous diffusion model within this latent space. To enable optimization, we integrate the gradients of reward models--surrogates for RNA functional properties--into the backward diffusion process, thereby generating RNAs with high reward scores. Empirical results confirm that RNAdiffusion generates non-coding RNAs that align with natural distributions across various biological metrics. Further, we fine-tune the diffusion model on mRNA 5' untranslated regions (5'-UTRs) and optimize sequences for high translation efficiencies. Our guided diffusion model effectively generates diverse 5'-UTRs with high Mean Ribosome Loading (MRL) and Translation Efficiency (TE), outperforming baselines in balancing rewards and structural stability trade-off. Our findings hold potential for advancing RNA sequence-function research and therapeutic RNA design.
- Abstract(参考訳): この研究は、可変長の離散RNA配列の生成と最適化のための潜在拡散モデルであるRNA拡散を提示する。
RNAはDNAとタンパク質の間の重要な中間体であり、幅広い機能をサポートするために高い配列の多様性と複雑な3次元構造を示す。
我々は、事前訓練されたBERT型モデルを用いて、生RNA配列をトークンレベル、生物学的に意味のある表現に符号化する。
Query Transformerは、そのような表現を固定長の潜伏ベクトルの集合に圧縮するために使用され、これらの潜伏変数からRNA配列を再構成するように訓練された自己回帰デコーダである。
次に、この潜在空間内で連続拡散モデルを開発する。
最適化を実現するため、RNA機能特性の代用である報酬モデルの勾配を後方拡散プロセスに統合し、高い報酬スコアを持つRNAを生成する。
実験の結果、RNA拡散は様々な生物学的指標の自然な分布と一致した非コードRNAを生成することが確認された。
さらに,mRNA5'非翻訳領域(5'-UTRs)の拡散モデルを微調整し,高い翻訳効率のために配列を最適化する。
誘導拡散モデルでは,高平均リボソーム負荷 (MRL) と翻訳効率 (TE) を持つ5'-UTRを効果的に生成し,報酬のバランスや構造安定性のトレードオフに優れる。
本研究はRNAシークエンス・ファンクショナル・リサーチと治療用RNA設計の進歩の可能性を秘めている。
関連論文リスト
- RNA-GPT: Multimodal Generative System for RNA Sequence Understanding [6.611255836269348]
RNAは生命に不可欠な遺伝情報を運ぶ必須分子である。
この重要性にもかかわらず、RNAの研究はしばしば、この話題で利用可能な膨大な文献によって妨げられている。
本稿では,RNA発見の簡易化を目的としたマルチモーダルRNAチャットモデルであるRNA-GPTを紹介する。
論文 参考訳(メタデータ) (2024-10-29T06:19:56Z) - Comprehensive benchmarking of large language models for RNA secondary structure prediction [0.0]
RNA-LLMはRNA配列の大規模なデータセットを使用して、自己教師付き方法で、意味的に豊かな数値ベクトルで各RNA塩基をどう表現するかを学ぶ。
その中で、二次構造を予測することは、RNAの機能的機構を明らかにするための基本的な課題である。
本稿では,いくつかの事前学習されたRNA-LLMの総合的な実験解析を行い,それらを統合されたディープラーニングフレームワークにおけるRNA二次構造予測タスクと比較する。
論文 参考訳(メタデータ) (2024-10-21T17:12:06Z) - Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design [56.957070405026194]
拡散モデルにより生成された軌道全体を通して報酬の直接バックプロパゲーションを可能にするアルゴリズムを提案する。
DRAKESは自然に似ており、高い報酬をもたらすシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-10-17T15:10:13Z) - RNACG: A Universal RNA Sequence Conditional Generation model based on Flow-Matching [0.0]
本研究では,フローマッチング,すなわちRNACGに基づく普遍的なRNA配列生成モデルを開発する。
RNACGは様々な条件入力に対応でき、可搬性があり、ユーザーは条件入力のために符号化ネットワークをカスタマイズできる。
RNACGは、シーケンス生成およびプロパティ予測タスクに広範な適用性を示す。
論文 参考訳(メタデータ) (2024-07-29T09:46:46Z) - BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - RNAFlow: RNA Structure & Sequence Design via Inverse Folding-Based Flow Matching [7.600990806121113]
RNAFlowはタンパク質条件のRNA配列構造設計のためのフローマッチングモデルである。
そのデノナイジングネットワークはRNA逆フォールディングモデルと事前訓練されたRosettaFold2NAネットワークを統合し、RNA配列と構造を生成する。
論文 参考訳(メタデータ) (2024-05-29T05:10:25Z) - scHyena: Foundation Model for Full-Length Single-Cell RNA-Seq Analysis
in Brain [46.39828178736219]
我々はこれらの課題に対処し、脳内のscRNA-seq解析の精度を高めるために設計された基礎モデルであるscHyenaを紹介する。
scHyenaは、線形適応層、遺伝子埋め込みによる位置エンコーディング、および双方向ハイエナ演算子を備えている。
これにより、生データから情報を失うことなく、全長の scRNA-seq データを処理できる。
論文 参考訳(メタデータ) (2023-10-04T10:30:08Z) - RDesign: Hierarchical Data-efficient Representation Learning for
Tertiary Structure-based RNA Design [65.41144149958208]
本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。
我々は、ベンチマークデータセットを作成し、複雑なRNA第三次構造を表現するための包括的な構造モデリングアプローチを設計した。
RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造体を事前知識として組み込んだ。
論文 参考訳(メタデータ) (2023-01-25T17:19:49Z) - Improving RNA Secondary Structure Design using Deep Reinforcement
Learning [69.63971634605797]
本稿では,RNA配列設計に強化学習を適用した新しいベンチマークを提案する。このベンチマークでは,目的関数を配列の二次構造における自由エネルギーとして定義する。
本稿では,これらのアルゴリズムに対して行うアブレーション解析の結果と,バッチ間でのアルゴリズムの性能を示すグラフを示す。
論文 参考訳(メタデータ) (2021-11-05T02:54:06Z) - Classification of Long Noncoding RNA Elements Using Deep Convolutional
Neural Networks and Siamese Networks [17.8181080354116]
この論文は、cRNA配列を分類するために、ディープ畳み込みニューラルネットワーク(CNN)の新たな手法を提案する。
その結果、CNNベースの分類モデルにより効率よく解ける画像分類プロブレムに、クラスサイズRNA配列を変換する。
論文 参考訳(メタデータ) (2021-02-10T17:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。