論文の概要: Designing RNAs with Language Models
- arxiv url: http://arxiv.org/abs/2602.12470v1
- Date: Thu, 12 Feb 2026 22:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.783064
- Title: Designing RNAs with Language Models
- Title(参考訳): 言語モデルを用いたRNAの設計
- Authors: Milan Gautam, Ning Dai, Tianshuo Zhou, Bowen Xie, David Mathews, Liang Huang,
- Abstract要約: RNA設計は指数関数的に大きな配列空間と指数関数的に多くの競合する折り畳みのために困難である。
自己回帰言語モデル (LM) としてインスタンス化された再利用可能なニューラル近似器を導入し, ターゲット構造を直接シーケンスにマッピングする。
4つのデータセットにわたって、我々の手法はボルツマン確率のような重要な指標上で最先端のシステムよりも1.7倍高速である。
- 参考スコア(独自算出の注目度): 3.332772772624738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RNA design, the task of finding a sequence that folds into a target secondary structure, has broad biological and biomedical impact but remains computationally challenging due to the exponentially large sequence space and exponentially many competing folds. Traditional approaches treat it as an optimization problem, relying on per-instance heuristics or constraint-based search. We instead reframe RNA design as conditional sequence generation and introduce a reusable neural approximator, instantiated as an autoregressive language model (LM), that maps target structures directly to sequences. We first train our model in a supervised setting on random-induced structure-sequence pairs, and then use reinforcement learning (RL) to optimize end-to-end metrics. We also propose methods to select a small subset for RL that greatly improves RL efficiency and quality. Across four datasets, our approach outperforms state-of-the-art systems on key metrics such as Boltzmann probability while being 1.7x faster, establishing conditional LM generation as a scalable, task-agnostic alternative to per-instance optimization for RNA design. Our code and data are available at https://github.com/KuNyaa/RNA-Design-LM.
- Abstract(参考訳): RNA設計は、標的の二次構造に折り畳まれる配列を見つけるタスクであるが、指数的に大きな配列空間と指数的に多くの競合するフォールドのために、幅広い生物学的および生物医学的な影響を持つ。
従来のアプローチでは、インスタンスごとのヒューリスティックや制約ベースの検索に頼って最適化問題として扱う。
代わりに、RNA設計を条件付きシーケンス生成として再編成し、ターゲット構造を直接配列にマッピングする自己回帰言語モデル(LM)としてインスタンス化された再利用可能なニューラル近似器を導入する。
まず、ランダムな構造列ペアの教師付き設定でモデルをトレーニングし、次に強化学習(RL)を用いてエンドツーエンドのメトリクスを最適化する。
また、RLの効率と品質を大幅に向上させるRLの小さなサブセットを選択する方法を提案する。
4つのデータセットにおいて,本手法はボルツマン確率の1.7倍高速化や,RNA設計におけるインスタンスごとの最適化に代わる拡張性,タスク非依存の代替として条件付きLM生成を確立するなど,最先端のシステムよりも優れている。
私たちのコードとデータはhttps://github.com/KuNyaa/RNA-Design-LMで公開されています。
関連論文リスト
- Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Differentiable Folding for Nearest Neighbor Model Optimization [0.6291443816903801]
Nearest NeighborモデルはRNA二次構造形成の$textitde facto$熱力学モデルである。
ここでは、$textitdifferentiable folding$の最近の進歩を活用して、パラメータ最適化の効率的でスケーラブルで柔軟な手段を考案する。
提案手法では,既存の基準値よりも優れたパラメータセットが得られた。
論文 参考訳(メタデータ) (2025-03-12T05:36:12Z) - Regulatory DNA sequence Design with Reinforcement Learning [56.20290878358356]
本稿では,強化学習を利用して事前学習した自己回帰モデルを微調整する生成手法を提案する。
2つの酵母培地条件下でのプロモーター設計タスクの評価と,3種類のヒト細胞に対するエンハンサー設計タスクの評価を行った。
論文 参考訳(メタデータ) (2025-03-11T02:33:33Z) - Helix-mRNA: A Hybrid Foundation Model For Full Sequence mRNA Therapeutics [3.2508287756500165]
mRNAベースのワクチンは製薬業界において主要な焦点となっている。
この性質のためにmRNA配列を最適化するのは 難しい課題です
これらの課題に対処するために、構造化された状態空間ベースおよび注目ハイブリッドモデルであるHelix-mRNAを提案する。
論文 参考訳(メタデータ) (2025-02-19T14:51:41Z) - BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - Improving RNA Secondary Structure Design using Deep Reinforcement
Learning [69.63971634605797]
本稿では,RNA配列設計に強化学習を適用した新しいベンチマークを提案する。このベンチマークでは,目的関数を配列の二次構造における自由エネルギーとして定義する。
本稿では,これらのアルゴリズムに対して行うアブレーション解析の結果と,バッチ間でのアルゴリズムの性能を示すグラフを示す。
論文 参考訳(メタデータ) (2021-11-05T02:54:06Z) - RNA Secondary Structure Prediction By Learning Unrolled Algorithms [70.09461537906319]
本稿では,RNA二次構造予測のためのエンド・ツー・エンドのディープラーニングモデルであるE2Efoldを提案する。
E2Efoldの鍵となる考え方は、RNA塩基対行列を直接予測し、制約のないプログラミングを、制約を強制するための深いアーキテクチャのテンプレートとして使うことである。
ベンチマークデータセットに関する包括的な実験により、E2Efoldの優れた性能を実証する。
論文 参考訳(メタデータ) (2020-02-13T23:21:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。