論文の概要: Latent Diffusion Models for Controllable RNA Sequence Generation
- arxiv url: http://arxiv.org/abs/2409.09828v1
- Date: Sun, 15 Sep 2024 19:04:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 17:20:56.594867
- Title: Latent Diffusion Models for Controllable RNA Sequence Generation
- Title(参考訳): 制御可能なRNA配列生成のための潜時拡散モデル
- Authors: Kaixuan Huang, Yukang Yang, Kaidi Fu, Yanyi Chu, Le Cong, Mengdi Wang,
- Abstract要約: RNAは生物学的プロセスにおける動的で多用途な分子である。
我々は、事前訓練されたBERTモデルを用いて、生RNAをトークンレベルで生物学的に意味のある表現にエンコードする。
次に、この潜在空間内で連続拡散モデルを開発する。
我々は、より高い報酬に最適化されたRNA配列を生成することを目的として、後方拡散過程において勾配に基づくガイダンスを採用する。
- 参考スコア(独自算出の注目度): 33.38594748558547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents RNAdiffusion, a latent diffusion model for generating and optimizing discrete RNA sequences. RNA is a particularly dynamic and versatile molecule in biological processes. RNA sequences exhibit high variability and diversity, characterized by their variable lengths, flexible three-dimensional structures, and diverse functions. We utilize pretrained BERT-type models to encode raw RNAs into token-level biologically meaningful representations. A Q-Former is employed to compress these representations into a fixed-length set of latent vectors, with an autoregressive decoder trained to reconstruct RNA sequences from these latent variables. We then develop a continuous diffusion model within this latent space. To enable optimization, we train reward networks to estimate functional properties of RNA from the latent variables. We employ gradient-based guidance during the backward diffusion process, aiming to generate RNA sequences that are optimized for higher rewards. Empirical experiments confirm that RNAdiffusion generates non-coding RNAs that align with natural distributions across various biological indicators. We fine-tuned the diffusion model on untranslated regions (UTRs) of mRNA and optimize sample sequences for protein translation efficiencies. Our guided diffusion model effectively generates diverse UTR sequences with high Mean Ribosome Loading (MRL) and Translation Efficiency (TE), surpassing baselines. These results hold promise for studies on RNA sequence-function relationships, protein synthesis, and enhancing therapeutic RNA design.
- Abstract(参考訳): 本稿では、離散RNA配列の生成と最適化のための遅延拡散モデルであるRNA拡散について述べる。
RNAは、生物学的プロセスにおいて特に動的で多用途な分子である。
RNA配列は、その可変長、柔軟な3次元構造、多様な機能によって特徴づけられる、高い多様性と多様性を示す。
我々は、事前訓練されたBERTモデルを用いて、生RNAをトークンレベルで生物学的に意味のある表現にエンコードする。
Q-Formerは、これらの表現を固定長の潜伏ベクトルの集合に圧縮するために使用され、これらの潜伏変数からRNA配列を再構成するように訓練された自己回帰デコーダである。
次に、この潜在空間内で連続拡散モデルを開発する。
最適化を実現するため、潜伏変数からRNAの機能特性を推定するために報酬ネットワークを訓練する。
我々は、より高い報酬に最適化されたRNA配列を生成することを目的として、後方拡散過程において勾配に基づくガイダンスを採用する。
実験的実験により、RNA拡散は様々な生物学的指標の自然な分布と一致した非コードRNAを生成することが確認された。
我々はmRNAの翻訳されていない領域(UTR)の拡散モデルを微調整し、タンパク質翻訳効率を最適化した。
誘導拡散モデルでは, 平均リボソーム負荷 (MRL) と変換効率 (TE) がベースラインを超え, 多様な UTR 配列を効果的に生成する。
これらの結果は、RNA配列-機能関係の研究、タンパク質合成、および治療的RNA設計の強化を約束する。
関連論文リスト
- RNA-GPT: Multimodal Generative System for RNA Sequence Understanding [6.611255836269348]
RNAは生命に不可欠な遺伝情報を運ぶ必須分子である。
この重要性にもかかわらず、RNAの研究はしばしば、この話題で利用可能な膨大な文献によって妨げられている。
本稿では,RNA発見の簡易化を目的としたマルチモーダルRNAチャットモデルであるRNA-GPTを紹介する。
論文 参考訳(メタデータ) (2024-10-29T06:19:56Z) - Comprehensive benchmarking of large language models for RNA secondary structure prediction [0.0]
RNA-LLMはRNA配列の大規模なデータセットを使用して、自己教師付き方法で、意味的に豊かな数値ベクトルで各RNA塩基をどう表現するかを学ぶ。
その中で、二次構造を予測することは、RNAの機能的機構を明らかにするための基本的な課題である。
本稿では,いくつかの事前学習されたRNA-LLMの総合的な実験解析を行い,それらを統合されたディープラーニングフレームワークにおけるRNA二次構造予測タスクと比較する。
論文 参考訳(メタデータ) (2024-10-21T17:12:06Z) - Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design [56.957070405026194]
拡散モデルにより生成された軌道全体を通して報酬の直接バックプロパゲーションを可能にするアルゴリズムを提案する。
DRAKESは自然に似ており、高い報酬をもたらすシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-10-17T15:10:13Z) - RNACG: A Universal RNA Sequence Conditional Generation model based on Flow-Matching [0.0]
本研究では,フローマッチング,すなわちRNACGに基づく普遍的なRNA配列生成モデルを開発する。
RNACGは様々な条件入力に対応でき、可搬性があり、ユーザーは条件入力のために符号化ネットワークをカスタマイズできる。
RNACGは、シーケンス生成およびプロパティ予測タスクに広範な適用性を示す。
論文 参考訳(メタデータ) (2024-07-29T09:46:46Z) - BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - RNAFlow: RNA Structure & Sequence Design via Inverse Folding-Based Flow Matching [7.600990806121113]
RNAFlowはタンパク質条件のRNA配列構造設計のためのフローマッチングモデルである。
そのデノナイジングネットワークはRNA逆フォールディングモデルと事前訓練されたRosettaFold2NAネットワークを統合し、RNA配列と構造を生成する。
論文 参考訳(メタデータ) (2024-05-29T05:10:25Z) - scHyena: Foundation Model for Full-Length Single-Cell RNA-Seq Analysis
in Brain [46.39828178736219]
我々はこれらの課題に対処し、脳内のscRNA-seq解析の精度を高めるために設計された基礎モデルであるscHyenaを紹介する。
scHyenaは、線形適応層、遺伝子埋め込みによる位置エンコーディング、および双方向ハイエナ演算子を備えている。
これにより、生データから情報を失うことなく、全長の scRNA-seq データを処理できる。
論文 参考訳(メタデータ) (2023-10-04T10:30:08Z) - RDesign: Hierarchical Data-efficient Representation Learning for
Tertiary Structure-based RNA Design [65.41144149958208]
本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。
我々は、ベンチマークデータセットを作成し、複雑なRNA第三次構造を表現するための包括的な構造モデリングアプローチを設計した。
RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造体を事前知識として組み込んだ。
論文 参考訳(メタデータ) (2023-01-25T17:19:49Z) - Improving RNA Secondary Structure Design using Deep Reinforcement
Learning [69.63971634605797]
本稿では,RNA配列設計に強化学習を適用した新しいベンチマークを提案する。このベンチマークでは,目的関数を配列の二次構造における自由エネルギーとして定義する。
本稿では,これらのアルゴリズムに対して行うアブレーション解析の結果と,バッチ間でのアルゴリズムの性能を示すグラフを示す。
論文 参考訳(メタデータ) (2021-11-05T02:54:06Z) - Classification of Long Noncoding RNA Elements Using Deep Convolutional
Neural Networks and Siamese Networks [17.8181080354116]
この論文は、cRNA配列を分類するために、ディープ畳み込みニューラルネットワーク(CNN)の新たな手法を提案する。
その結果、CNNベースの分類モデルにより効率よく解ける画像分類プロブレムに、クラスサイズRNA配列を変換する。
論文 参考訳(メタデータ) (2021-02-10T17:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。